Statistik 1 – Lektion 2

Statistik 1 – Lektion 2 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Sidste kursusgang • Hvad kan vi bruge statistik til? • Kausalitet. • Datamatricer. • Måleniveau. • Centraltendens og spredning. • Omkodning. • Krydstabulering. • Intro (med øvelser) til statistikprogrammet SPSS.

Denne kursusgang • Stikprøver. • Vægtning. • Konfidensintervaller. • Spredningsdiagrammer. • Korrelation. • Signifikans. • Ekstreme værdier.

Matematik vs. virkelighed Not everything that counts can be counted, and not everything that can be counted counts. - Albert Einstein

Stikprøver • Repræsentativ stikprøve? • Udvalgsramme og analysedesign. • Bortfald og tab. • Sampling: tilfældig, systematisk, stratificeret, klynge, etc.

Vægtning. • Kan bruges til at udføre analyser på ikke-repræsentative stikprøver. • Vægtning løser et problem men skaber nye. • En simpel vægtning: • Vægt = populationsandel / stikprøveandel. • Kan også bruges hvis man ikke har adgang til selve data, men kun deskriptiv statistik af data.

Eksempel 1 • Datafilerne vi arbejder med er af ret høj kvalitet, og vi vil derfor bruge et tænkt eksempel i stedet, da der ikke er nogen umiddelbare kandidater til vægtning i vores data. • Vi antager at 60% af respondenterne i en undersøgelse er mænd (mod ca. 49,6% mænd i hele DK). • Vægtmænd = 49,6/60 = 0,83 • Vægtkvinder = 51,4/40 = 1,29 • En ny variabel kan så beregnes med disse vægte og bruges i data>weight. • Vægtningen bruges i al dataanalyse i SPSS indtil den bliver slået fra igen (ligesom select cases funktionen).

Konfidensintervaller • Et interval der med en bestemt sandsynlighed (oftest 95%) indeholder en given parameters sande værdi. • Intervallet ligger ±1,96 gange standardfejlen fra middelværdien (ved 95%). • Den empiriske regel: 68% - 95% - 99,7%.

Eksempel 2

Eksempel 2 (fortsat) • Stikprøvestørrelse (n) er 1149 personer. • 2,86% = fejlmargen (margin of error). • Der er med 95% sandsynlighed flest folk, der er parat til at betale mere. • Bruges f.eks. ved meningsmålinger til valg, hvor det ofte fejlagtigt rapporteres, at kandidat A har indhentet kandidat B med 3 procentpoint, men hvor det lige så godt kan skyldes statistisk unøjagtighed.

Krydstabeller

Krydstabeller NB: Additive index

Opgave 1 • Datafilen ”Hovedstadsomraadet …” benyttes. • Brug et spredningsdiagram i stedet for en krydstabel til at undersøge sammenhængen mellem de to variable fra forrige slide (bilorien & miljhold). • Funktionen findes under graph>scatter.

Spredningsdiagram

Korrelation Gsn. af y Gsn. af x

Korrelation • Pearsons produkt-moment-test (r): • Formel: • Simplificeret fortolkning: Kombinerede afstande fra gennemsnit divideret med standardafvigelser. • Kendallstau, Spearmansrho.

Korrelation • r-værdien er et udtryk for hvor godt observationerne stemmer overens med en lineær sammenhæng, men ikke for hvor meget den ene variabel varierer i forhold til den anden (skelner dog mellem positiv/negativ korrelation).

Korrelation • Gamma. • Er modsat Pearsons r retningsbestemt. • Sammenligner antallet af samstemmende par i en ordnet krydstabel for to variable med antallet af ikke-samstemmende. • Kan derfor kun bruges når variable er ordinale (el. binære/dikotome).

Korrelation • Formlen for Gamma er (P – Q)/(P + Q) • P beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til højre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan: • Q beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til venstre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:

Eksempel 3

Korrelation

Korrelation • Partiel korrelation. • Angiver sammenhængen mellem to variable, når der kontrolleres for indvirken fra en el. flere andre variable. • Kræver interval variable. Rejselæng-de med bil Indtægt ? Tæthed i lo-kalområdet

Eksempel 4 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi undersøger om inddragelsen af indtægt ændrer på sammenhængen mellem bilkørsel og tæthed i lokalområdet. • correlate>partial benyttes.

Opgave 2 • Datafilen ”Hovedstadsomraadet …” benyttes. • Undersøg om sammenhængen mellem respondenternes holdninger til bil (bilorien) og til miljø (miljhold) skyldes forskelle i indkomst (persind2). • correlate>partial benyttes.

Signifikans • Betegnes som regel med værdien p (probability), og angiver sandsynlighed for at nul-hypotesen er sand. • Nul-hypotesen antager, at der ikke er nogen sammenhæng mellem de undersøgte variable. • Er der dermed en lav sandsynlighed for at den er sand (som regel p<0,05) forkaster vi derfor nul-hypotesen, og der må altså gælde, at der er en sammenhæng. • Beregnes ofte med Chi2 (ikke-parametrisk) eller T-test (parametrisk).

Signifikans • Chi2: Eks: 407*402/1871=87,4

Opgave 3 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi vil undersøge om der er en statistisk signifikant samvariation mellem yngre og ældre personers (alder2) tendens til at have et kørekort (bilkkort). • Hvilke korrelationskoefficienter bør vi anvende?

Outliers • Outliers er observationer, der skiller sig ud fra resten af datasættet ved at have ekstreme værdier. • Skyldes enten fejl i data (disse bør rettes) eller at population har en tung hale (forsigtig mht. antagelser om normalfordeling). • SPSS skelner mellem outliers og extremes. • Boxplots giver et hurtigt grafisk overblik.

Outliers • Boxplots: • Boksen angiver altid 25%, 50% og 75% kvartiler. • De nedre og øvre linjer kan angive forskellige ting i forskellig statistik-software. • I SPSS angiver de grænserne for outliers (prikker), der defineres som halvanden kvartilafstand fra øverste og nederste kvartili hver retning. • Ekstreme værdier (stjerner) defineres som tre kvartilafstande fra øverste og nederste kvartil i hver retning.

Outliers

Opgave 4 • Datafilen ”Hovedstadsomraadet …” benyttes. • Hvad sker med sammenhængen mellem tætheden i lokalområdet (loktaet) og rejselængden med bil på hverdage (bilhverd), kontrolleret for personlig indtægt (persind2), hvis vi udelader respondenter med ekstreme rejselængder med bil på hverdage?

Opgave 5 • Datafilen ”Hovedstadsomraadet …” benyttes. • Beregn den partielle korrelation mellem boligens afstand fra Københavns centrum (centafs) og andelen af ikke-motoriseret transport på hverdage (fcandhv), kontrolleret for alder, personlig indtægt (persind2) og indeks for miljøholdninger (miljhold). • Hvordan skal resultatet tolkes?

Statistik 1 – Lektion 2

Statistik 1 – Lektion 2

Presentation Transcript

İleri İstatistik Teknikleri

Nicel Veri Analizi ve İstatistik Testler

ELLA–CS Producer of medical devices

Einführung in die Programmierung Prof. Dr. Bertrand Meyer

BPS Pelopor Data Statistik Terpercaya Untuk Semua

Einführung in die Programmierung Prof. Dr. Bertrand Meyer

INDIKATOR STATISTIK

Pengenalan statistik Pengumpulan , Pengolahan , Penyajian Data dan D istribusi Frekuensi

Bahan Ajar Statistik Hortikultura

Statistik Pertanian (1) Cakupan

TÜRKİYE ÇALIŞMA VE İŞ KURUMU YOZGAT İL MÜDÜRLÜĞÜ İL GENELİ İŞGÜCÜ PİYASASI ANALİZ ÇALIŞMASI

Bahan Ajar Statistik Hortikultura

RAPAT PENGENDALIAN PROGRAM DAN ANGGARAN

ILMU STATISTIK EKONOMI

TERMINOLOGI DALAM STATISTIK

BADAN USAHA MILIK NEGARA DAN BADAN USAHA MILIK DAERAH

STATISTIK - I

TÜRKİYE’DE VE DÜNYADA TARIM VE HAYVANCILIK

STATISTIK PENDIDIKAN EDU5950 SEM1 2013-14

STATISTIK PETERNAKAN

TSİM

Bahan Perkuliahan SNN-PDB SEKOLAH TINGGI ILMU STATISTIK – JAKARTA