330 likes | 595 Views
Statistik 1 – Lektion 2. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Sidste kursusgang. Hvad kan vi bruge statistik til? Kausalitet. Datamatricer. Måleniveau. Centraltendens og spredning. Omkodning. Krydstabulering. Intro (med øvelser) til statistikprogrammet SPSS.
E N D
Statistik 1 – Lektion 2 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Sidste kursusgang • Hvad kan vi bruge statistik til? • Kausalitet. • Datamatricer. • Måleniveau. • Centraltendens og spredning. • Omkodning. • Krydstabulering. • Intro (med øvelser) til statistikprogrammet SPSS.
Denne kursusgang • Stikprøver. • Vægtning. • Konfidensintervaller. • Spredningsdiagrammer. • Korrelation. • Signifikans. • Ekstreme værdier.
Matematik vs. virkelighed Not everything that counts can be counted, and not everything that can be counted counts. - Albert Einstein
Stikprøver • Repræsentativ stikprøve? • Udvalgsramme og analysedesign. • Bortfald og tab. • Sampling: tilfældig, systematisk, stratificeret, klynge, etc.
Vægtning. • Kan bruges til at udføre analyser på ikke-repræsentative stikprøver. • Vægtning løser et problem men skaber nye. • En simpel vægtning: • Vægt = populationsandel / stikprøveandel. • Kan også bruges hvis man ikke har adgang til selve data, men kun deskriptiv statistik af data.
Eksempel 1 • Datafilerne vi arbejder med er af ret høj kvalitet, og vi vil derfor bruge et tænkt eksempel i stedet, da der ikke er nogen umiddelbare kandidater til vægtning i vores data. • Vi antager at 60% af respondenterne i en undersøgelse er mænd (mod ca. 49,6% mænd i hele DK). • Vægtmænd = 49,6/60 = 0,83 • Vægtkvinder = 51,4/40 = 1,29 • En ny variabel kan så beregnes med disse vægte og bruges i data>weight. • Vægtningen bruges i al dataanalyse i SPSS indtil den bliver slået fra igen (ligesom select cases funktionen).
Konfidensintervaller • Et interval der med en bestemt sandsynlighed (oftest 95%) indeholder en given parameters sande værdi. • Intervallet ligger ±1,96 gange standardfejlen fra middelværdien (ved 95%). • Den empiriske regel: 68% - 95% - 99,7%.
Eksempel 2 (fortsat) • Stikprøvestørrelse (n) er 1149 personer. • 2,86% = fejlmargen (margin of error). • Der er med 95% sandsynlighed flest folk, der er parat til at betale mere. • Bruges f.eks. ved meningsmålinger til valg, hvor det ofte fejlagtigt rapporteres, at kandidat A har indhentet kandidat B med 3 procentpoint, men hvor det lige så godt kan skyldes statistisk unøjagtighed.
Krydstabeller NB: Additive index
Opgave 1 • Datafilen ”Hovedstadsomraadet …” benyttes. • Brug et spredningsdiagram i stedet for en krydstabel til at undersøge sammenhængen mellem de to variable fra forrige slide (bilorien & miljhold). • Funktionen findes under graph>scatter.
Korrelation Gsn. af y Gsn. af x
Korrelation • Pearsons produkt-moment-test (r): • Formel: • Simplificeret fortolkning: Kombinerede afstande fra gennemsnit divideret med standardafvigelser. • Kendallstau, Spearmansrho.
Korrelation • r-værdien er et udtryk for hvor godt observationerne stemmer overens med en lineær sammenhæng, men ikke for hvor meget den ene variabel varierer i forhold til den anden (skelner dog mellem positiv/negativ korrelation).
Korrelation • Gamma. • Er modsat Pearsons r retningsbestemt. • Sammenligner antallet af samstemmende par i en ordnet krydstabel for to variable med antallet af ikke-samstemmende. • Kan derfor kun bruges når variable er ordinale (el. binære/dikotome).
Korrelation • Formlen for Gamma er (P – Q)/(P + Q) • P beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til højre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan: • Q beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til venstre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:
Korrelation • Partiel korrelation. • Angiver sammenhængen mellem to variable, når der kontrolleres for indvirken fra en el. flere andre variable. • Kræver interval variable. Rejselæng-de med bil Indtægt ? Tæthed i lo-kalområdet
Eksempel 4 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi undersøger om inddragelsen af indtægt ændrer på sammenhængen mellem bilkørsel og tæthed i lokalområdet. • correlate>partial benyttes.
Opgave 2 • Datafilen ”Hovedstadsomraadet …” benyttes. • Undersøg om sammenhængen mellem respondenternes holdninger til bil (bilorien) og til miljø (miljhold) skyldes forskelle i indkomst (persind2). • correlate>partial benyttes.
Signifikans • Betegnes som regel med værdien p (probability), og angiver sandsynlighed for at nul-hypotesen er sand. • Nul-hypotesen antager, at der ikke er nogen sammenhæng mellem de undersøgte variable. • Er der dermed en lav sandsynlighed for at den er sand (som regel p<0,05) forkaster vi derfor nul-hypotesen, og der må altså gælde, at der er en sammenhæng. • Beregnes ofte med Chi2 (ikke-parametrisk) eller T-test (parametrisk).
Signifikans • Chi2: Eks: 407*402/1871=87,4
Opgave 3 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi vil undersøge om der er en statistisk signifikant samvariation mellem yngre og ældre personers (alder2) tendens til at have et kørekort (bilkkort). • Hvilke korrelationskoefficienter bør vi anvende?
Outliers • Outliers er observationer, der skiller sig ud fra resten af datasættet ved at have ekstreme værdier. • Skyldes enten fejl i data (disse bør rettes) eller at population har en tung hale (forsigtig mht. antagelser om normalfordeling). • SPSS skelner mellem outliers og extremes. • Boxplots giver et hurtigt grafisk overblik.
Outliers • Boxplots: • Boksen angiver altid 25%, 50% og 75% kvartiler. • De nedre og øvre linjer kan angive forskellige ting i forskellig statistik-software. • I SPSS angiver de grænserne for outliers (prikker), der defineres som halvanden kvartilafstand fra øverste og nederste kvartili hver retning. • Ekstreme værdier (stjerner) defineres som tre kvartilafstande fra øverste og nederste kvartil i hver retning.
Opgave 4 • Datafilen ”Hovedstadsomraadet …” benyttes. • Hvad sker med sammenhængen mellem tætheden i lokalområdet (loktaet) og rejselængden med bil på hverdage (bilhverd), kontrolleret for personlig indtægt (persind2), hvis vi udelader respondenter med ekstreme rejselængder med bil på hverdage?
Opgave 5 • Datafilen ”Hovedstadsomraadet …” benyttes. • Beregn den partielle korrelation mellem boligens afstand fra Københavns centrum (centafs) og andelen af ikke-motoriseret transport på hverdage (fcandhv), kontrolleret for alder, personlig indtægt (persind2) og indeks for miljøholdninger (miljhold). • Hvordan skal resultatet tolkes?