300 likes | 500 Views
Statistik 1 – Lektion 1. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Mål og indhold. Mål: Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger. Indhold:
E N D
Statistik 1 – Lektion 1 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Mål og indhold • Mål:Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger. • Indhold: • Fokus på metodernes egnethed til forskellige analyseopgaver og på forudsætninger, der skal være opfyldt. • Øvelser i praktisk brug af de forskellige analyseteknikker ved hjælp af et EDB-program (SPSS). • Ikke fokus på metodernes matematiske grundlag.
Kursets temaer • Generelt om kvantitative analyser/anvendt statistik. Hvilke typer problemstillinger egner statiske analyser sig til? • Datamatricer og intro til SPSS. • Beregning af statistiske mål for middelværdi og spredning. • Krydstabulering. • Forskellige teknikker for beregning af korrelation. • Lineær regression. • Logistisk regression.
Denne kursusgang • Hvad kan vi bruge statistik til? • Kausalitet. • Datamatricer. • Måleniveau. • Centraltendens og spredning. • Omkodning. • Krydstabulering. • Intro (med øvelser) til statistikprogrammet SPSS, herunder kodning og omkodning, beregning af statistiske mål, konstruktion af krydstabeller, sammenligning af gennemsnitsværdier samt analyser på udvalgte dele af datamaterialet.
Hvornår anvendes statistik • Bør ikke bruges til: • Studier af plan- og beslutningsprocesser. • Studier af landskabsmæssige konsekvenser af nye veje eller kraftledninger. • Indgående psykologisk forståelse af menneskers handlemønstre. • Kan bruges til: • Undersøgelse af hvorvidt der er et flertal blandt en bys indbyggere for at implementere et givet anlægsprojekt. • Sammenligning af forskellige befolkningsgruppers vægtning af egenskaber ved boligmiljøet. • Studier af hvordan lokaliseringen af boliger i en by påvirker transportomfanget.
To hovedtyper • Deskriptiv • Hvordan ser vores data ud? • Den ”nemme” del af statistik. • Analytisk (inferential) • Hvad kan vi sige ud fra de sammenhænge, som kan observeres i vores data? • Den ”svære” del af statistik.
Kausalitet • Statistisk angiver tendenser, ikke naturlove (specielt indenfor samfundsvidenskaberne). • En af de mest almindelige fejl ved brugen af statistik er at konkludere en kausal sammenhæng hvor dette ikke er tilfældet. • Eks: mængden af overtøj henover året er måske korreleret med mængden af blade på træerne, men det ville være uklogt at konkludere, at det ene fænomen forårsager det andet. Tænk jer om og brug jeres sunde fornuft, når i tolker statistisk data. Teori og praksis skal stemme overens. • Statistik kan forklare hvordan tingene hænger sammen, men ikke hvorfor de hænger sådan sammen.
Hvad er en variabel? • En variabel er en egenskab, der kan variere mellem forskellige enheder i vores data (en enhed/case vil typisk repræsentere en person). • Eksempler på variable: • Køn • Alder • Holdning til økologi • Indkomst • Børn • Etnicitet • Afstand til arbejde
Variablernes måleniveau • Forskellige variable kan have forskellige måleniveauer. Dette betyder, at forskellige deskriptive mål og analytiske teknikker egner sig til forskellige data. • Man opdeler traditionelt i fire forskellige måleniveauer: • Nominal: kategorier (eks: stilling) • Ordinal: rangordnede kategorier (eks: holdning) • Interval: rangordnet skala (eks: temperatur mål i celsius) • Ratio: rangordnet skala med absolut nulpunkt (eks: højde) • Nominal og ordinal er typisk diskret og kvalitativ. • Interval og ratio er typisk kontinuert og kvantitativ. • SPSS betragter interval og ratio som ét måleniveau.
Centraltendens og spredning • Centraltendens • Modus (mode) • Median • Gennemsnit (mean) • Spredning • Variationsbredde • Kvartilafvigelse • Standardafvigelse (std. deviation)
Modus • Modus (typetallet) er blot den hyppigst forekommende værdi i en fordeling. • Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 • Modus vil her være 4.
Median • Medianen er den midterste værdi i en ordnet liste af observationer. • Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 • Medianen vil her være 3,5.
Gennemsnit • Det (aritmetiske) gennemsnit er det mest benyttede mål for centraltendens. • Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 • Gennemsnittet vil her være 3,25.
En tommelfingerregel Som alle regler kan denne bøjes lidt efter behov, men pas på med det og tænk over om det giver mening før i kaster jer ud i det. Lemfældig omgang med statistiske mål fører ofte til grov manipulation af resultater, om det så er intentionelt eller ej.
Variationsbredden: 5 - 1 = 4 Kvartilafstand: 5 - 2 = 3 Variationsbredde og kvartilafstand
Standardafvigelse • Standardafvigelsen er det mest benyttede mål for en fordelings spredning. • 95% af observationerne ligger mellem ± 1,96 std.afv. fra gennemsnittet/middelværdien. • Standardafvigelsen må ikke forveksles med standard fejl (S.E. mean). Matematisk er de beslægtede, men de udtaler sig om helt forskellige egenskaber ved en fordeling.
Omkodning • Omkodning benyttes til at omskrive en variabel til en anden variabel, muligvis med et nyt måleniveau. • Det kan f.eks. bruges til at reducere et stort antal kategorier til et mere overskueligt sæt eller til at inddele intervalvariable i kategorier. • Eks: man skelner ofte mellem børn, unge, voksne og ældre i stedet for at bruge deres specifikke alder som variabel.
Krydstabulering • Bruges til at danne sig et overblik over evt. sammenhæng mellem to variable. • Hurtigt at udføre og nemt at forstå. • Kan bruges på alle måleniveauer, da alle variable betragtes som nominale.
Eksempel 1 • Datafilen ”Hovedstadsområdet med udvalgte variabler 2” benyttes. • SPSS bruges til at finde minimum, maksimum, median, gennemsnit og standardafvigelse for variablerne alder og bilhverd. • Hvad kan vi se ud fra disse tal?
Opgave 1 • Datafilen ”Hovedstadsområdet …” benyttes. • Undersøg om der er fejlindtastninger for følgende variable: koen, alder, bilkort, bilant1. • Korriger evt. fejl i data.
Eksempel 2 • Datafilen ”Hovedstadsområdet …” benyttes. • SPSS bruges til at undersøge en evt. sammenhæng mellem respondenternes køn (koen) og hvorvidt de har kørekort (bilkkort) vha. krydstabulering. • Hvad kan vi se ud fra disse tal?
Eksempel 3 • Datafilen ”Hovedstadsområdet …” benyttes. • Variablen bilafh udtrykker hvor afhængige respondenterne føler sig af at have en bil til rådighed, for at få deres hverdagsaktiviteter til at hænge sammen. Den har tre værdier: 1 (i høj grad), 2 (i nogen grad) og 3 (slet ikke). • Omkod denne variabel til en ny variabel, bilafh2, der ikke skelner mellem folk med lav bilafhængighed og slet ingen bilafhænghed. • Funktionen transform>recode benyttes.
Opgave 2 • Datafilen ”Hovedstadsområdet …” benyttes. • Brug transform>recode til at omkode respondenternes alder til en ny variabel (alder2) med to værdier: høj alder (1) og lav alder (0). Lad skellet mellem høj og lav alder gå ved medianværdien, sådan at respondenter med alder lig med medianværdien kommer i den højeste alderskategori. • Lav en tilsvarende omkodning af respondenternes rejselængde med bil på hverdage (bilhverd) til en ny variabel (bilhver2), hvor medianværdien og højere værdier kodes 1, og værdier under medianen kodes 0. • Udfør en enkel krydstabulering mellem alder2 og bilhver2. Er der nogen sammenhæng mellem alder og bilkørsel?
Eksempel 4 • Datafilen ”Hovedstadsområdet …” benyttes. • Omkod indtægtsvariablen persindt til en ny variabel, persindt2, hvor indtægten skal angives i kroneværdier (i tusinder). Brug hver gruppes gennemsnitlige indkomst (værdierne findes i spørgeskemaet). • Hvordan varierer det gennemsnitlige indtægtsniveau (persindt2) blandt erhvervsaktive personer (jf. variablen erhvakt) mellem: • yngre og ældre (alder2) • mænd og kvinder (koen)
Opgave 3 • Datafilen ”Hovedstadsområdet …” benyttes. • Gennemsnitlig personlig indtægt (persindt2) blandt erhvervsaktive (erhvakt) respondenter i alderen 20-66 år (alder) skal beregnes for hvert af de 29 undersøgte boligområder (omraad). • Ser der ud til at være en sammenhæng mellem boligområder og indkomst? Hvis ja, hvordan tolker i så denne sammenhæng rent intuitivt?
Eksempel 5 • Datafilen ”Hovedstadsområdet …” benyttes. • Der skal laves en grafisk fremstilling af, hvordan andelen med kørekort for bil (bilkkort) varierer mellem respondenter tilhørende den høje og den lave aldersgruppe (alder2). Der skal alene ses på respondenter på 18 år og derover. • Derefter skal der laves en grafisk fremstilling af, hvordan andelen med kørekort til bil (bilkkort) varierer mellem kvindelige og mandlige respondenter (koen) inden for hver af de to aldersgrupper. Igen ses der alene på respondenter på 18 år og derover.
Opgave 4 • Datafilen ”Hovedstadsomraadet …” benyttes. Igen kun respondenter på 18+ år. • Lav en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem respondenter bosat i forskellige afstandsbælter fra Københavns centrum (afskat4). • Lav dernæst en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem erhvervsaktive og ikke-erhvervsaktive respondenter (erhvakt) indenfor hvert af disse afstandsbælter.
Opgave 5 • Datafilen ”NAMIT” benyttes. • Er kvinder mere villige end mænd til at prioritere økonomisk vækst foran miljøhensyn? Benyt variablerne v47 (køn) og v35 (vækst versus miljø).