1 / 33

Statistik 1 – Lektion 2

Statistik 1 – Lektion 2. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Sidste kursusgang. Hvad kan vi bruge statistik til? Kausalitet. Datamatricer. Måleniveau. Centraltendens og spredning. Omkodning. Krydstabulering. Intro (med øvelser) til statistikprogrammet SPSS.

eliot
Download Presentation

Statistik 1 – Lektion 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik 1 – Lektion 2 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

  2. Sidste kursusgang • Hvad kan vi bruge statistik til? • Kausalitet. • Datamatricer. • Måleniveau. • Centraltendens og spredning. • Omkodning. • Krydstabulering. • Intro (med øvelser) til statistikprogrammet SPSS.

  3. Denne kursusgang • Stikprøver. • Vægtning. • Konfidensintervaller. • Spredningsdiagrammer. • Korrelation. • Signifikans. • Ekstreme værdier.

  4. Matematik vs. virkelighed Not everything that counts can be counted, and not everything that can be counted counts. - Albert Einstein

  5. Stikprøver • Repræsentativ stikprøve? • Udvalgsramme og analysedesign. • Bortfald og tab. • Sampling: tilfældig, systematisk, stratificeret, klynge, etc.

  6. Vægtning. • Kan bruges til at udføre analyser på ikke-repræsentative stikprøver. • Vægtning løser et problem men skaber nye. • En simpel vægtning: • Vægt = populationsandel / stikprøveandel. • Kan også bruges hvis man ikke har adgang til selve data, men kun deskriptiv statistik af data.

  7. Eksempel 1 • Datafilerne vi arbejder med er af ret høj kvalitet, og vi vil derfor bruge et tænkt eksempel i stedet, da der ikke er nogen umiddelbare kandidater til vægtning i vores data. • Vi antager at 60% af respondenterne i en undersøgelse er mænd (mod ca. 49,6% mænd i hele DK). • Vægtmænd = 49,6/60 = 0,83 • Vægtkvinder = 51,4/40 = 1,29 • En ny variabel kan så beregnes med disse vægte og bruges i data>weight. • Vægtningen bruges i al dataanalyse i SPSS indtil den bliver slået fra igen (ligesom select cases funktionen).

  8. Konfidensintervaller • Et interval der med en bestemt sandsynlighed (oftest 95%) indeholder en given parameters sande værdi. • Intervallet ligger ±1,96 gange standardfejlen fra middelværdien (ved 95%). • Den empiriske regel: 68% - 95% - 99,7%.

  9. Eksempel 2

  10. Eksempel 2 (fortsat) • Stikprøvestørrelse (n) er 1149 personer. • 2,86% = fejlmargen (margin of error). • Der er med 95% sandsynlighed flest folk, der er parat til at betale mere. • Bruges f.eks. ved meningsmålinger til valg, hvor det ofte fejlagtigt rapporteres, at kandidat A har indhentet kandidat B med 3 procentpoint, men hvor det lige så godt kan skyldes statistisk unøjagtighed.

  11. Krydstabeller

  12. Krydstabeller NB: Additive index

  13. Opgave 1 • Datafilen ”Hovedstadsomraadet …” benyttes. • Brug et spredningsdiagram i stedet for en krydstabel til at undersøge sammenhængen mellem de to variable fra forrige slide (bilorien & miljhold). • Funktionen findes under graph>scatter.

  14. Spredningsdiagram

  15. Korrelation Gsn. af y Gsn. af x

  16. Korrelation • Pearsons produkt-moment-test (r): • Formel: • Simplificeret fortolkning: Kombinerede afstande fra gennemsnit divideret med standardafvigelser. • Kendallstau, Spearmansrho.

  17. Korrelation • r-værdien er et udtryk for hvor godt observationerne stemmer overens med en lineær sammenhæng, men ikke for hvor meget den ene variabel varierer i forhold til den anden (skelner dog mellem positiv/negativ korrelation).

  18. Korrelation • Gamma. • Er modsat Pearsons r retningsbestemt. • Sammenligner antallet af samstemmende par i en ordnet krydstabel for to variable med antallet af ikke-samstemmende. • Kan derfor kun bruges når variable er ordinale (el. binære/dikotome).

  19. Korrelation • Formlen for Gamma er (P – Q)/(P + Q) • P beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til højre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan: • Q beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til venstre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:

  20. Eksempel 3

  21. Korrelation

  22. Korrelation

  23. Korrelation • Partiel korrelation. • Angiver sammenhængen mellem to variable, når der kontrolleres for indvirken fra en el. flere andre variable. • Kræver interval variable. Rejselæng-de med bil Indtægt ? Tæthed i lo-kalområdet

  24. Eksempel 4 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi undersøger om inddragelsen af indtægt ændrer på sammenhængen mellem bilkørsel og tæthed i lokalområdet. • correlate>partial benyttes.

  25. Opgave 2 • Datafilen ”Hovedstadsomraadet …” benyttes. • Undersøg om sammenhængen mellem respondenternes holdninger til bil (bilorien) og til miljø (miljhold) skyldes forskelle i indkomst (persind2). • correlate>partial benyttes.

  26. Signifikans • Betegnes som regel med værdien p (probability), og angiver sandsynlighed for at nul-hypotesen er sand. • Nul-hypotesen antager, at der ikke er nogen sammenhæng mellem de undersøgte variable. • Er der dermed en lav sandsynlighed for at den er sand (som regel p<0,05) forkaster vi derfor nul-hypotesen, og der må altså gælde, at der er en sammenhæng. • Beregnes ofte med Chi2 (ikke-parametrisk) eller T-test (parametrisk).

  27. Signifikans • Chi2: Eks: 407*402/1871=87,4

  28. Opgave 3 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi vil undersøge om der er en statistisk signifikant samvariation mellem yngre og ældre personers (alder2) tendens til at have et kørekort (bilkkort). • Hvilke korrelationskoefficienter bør vi anvende?

  29. Outliers • Outliers er observationer, der skiller sig ud fra resten af datasættet ved at have ekstreme værdier. • Skyldes enten fejl i data (disse bør rettes) eller at population har en tung hale (forsigtig mht. antagelser om normalfordeling). • SPSS skelner mellem outliers og extremes. • Boxplots giver et hurtigt grafisk overblik.

  30. Outliers • Boxplots: • Boksen angiver altid 25%, 50% og 75% kvartiler. • De nedre og øvre linjer kan angive forskellige ting i forskellig statistik-software. • I SPSS angiver de grænserne for outliers (prikker), der defineres som halvanden kvartilafstand fra øverste og nederste kvartili hver retning. • Ekstreme værdier (stjerner) defineres som tre kvartilafstande fra øverste og nederste kvartil i hver retning.

  31. Outliers

  32. Opgave 4 • Datafilen ”Hovedstadsomraadet …” benyttes. • Hvad sker med sammenhængen mellem tætheden i lokalområdet (loktaet) og rejselængden med bil på hverdage (bilhverd), kontrolleret for personlig indtægt (persind2), hvis vi udelader respondenter med ekstreme rejselængder med bil på hverdage?

  33. Opgave 5 • Datafilen ”Hovedstadsomraadet …” benyttes. • Beregn den partielle korrelation mellem boligens afstand fra Københavns centrum (centafs) og andelen af ikke-motoriseret transport på hverdage (fcandhv), kontrolleret for alder, personlig indtægt (persind2) og indeks for miljøholdninger (miljhold). • Hvordan skal resultatet tolkes?

More Related