370 likes | 796 Views
Statistik og kvantitativ metode 3. semester efterår 2007 Lektion 2, onsdag den 3. okt. Variablers måleniveau, stikprøveudtræk samt spørgeskemakonstruktion. 1. VARIABLE OG DERES MÅLENIVEAU Hvad er en variabel?.
E N D
Statistikog kvantitativ metode3. semester efterår 2007Lektion 2, onsdag den 3. okt.Variablers måleniveau, stikprøveudtræk samt spørgeskemakonstruktion.
1. VARIABLE OG DERES MÅLENIVEAU Hvad er en variabel? En variabel er en egenskab eller karakteristik, som kan variere mellem cases/enheder i en stikprøve (eller en population). Eksempler på variable: • Køn (kvinde, mand) • Partistemme (Venstre, Socialdemokratiet, Konservative Folkeparti, Socialistisk Folkeparti osv.) • Alder i hele år (0, 1, 2, 3, 4, .....osv.) • Kommunale udgifter til folkeskoler (beløb i kroner) • Type af velfærdsstat som et land tilhører
Hvorfor er det nødvendigt at kunne skelne de forskellige måleniveauer fra hinanden? Den væsentligste grund, til at man skal kunne skelne mellem forskellige måleniveauer, er, at der til de enkelte måleniveauer kan foretages forskellige typer af statistiske analyser. F.eks. kan man ikke beregne gennemsnit af nominelle variable, ligesom man ikke kan foretage lineær regression eller variansanalyse med nominelle variable
Forskellige kategoriseringer af måleniveau Kvalitativ Diskret kvantitativ kontinuert Plus derudover inddelingen i henholdsvis: • Nominel • Ordinal • Interval-/ratioskaleret De mest vigtige at holde styr på de tre sidstnævnte!
Nominalskala Nominalskalaen er den ”laveste”. Her kan man alene sige noget om forskel eller lighed mellem to cases/respondenter på den pågældende variabel - f.eks. at to respondenter begge er tømrer, eller at den ene er tømrer og den anden murer. Nominal-skaleret variabel Cases(I dette tilfælde er en case en person eller respondent)
Ordinalskala Ved ordinalskalaen er det endvidere muligt at sige noget om rangordenen mellem forskellige respondenter - f.eks. at en respondent er mere eller mindre tilfreds end en anden. Ordinalskaleret variabel
Intervalskala Ved intervalskalaen kan man ud over rangordenen måle afstanden mellem kategorierne. Det giver f.eks. mening at sige, at afstanden mellem 180.000 kr. og 200.000 kr. er den samme som mellem 200.000 og 220.000 – nemlig 20.000 kr. Intervalskaleret variabel
Ratioskala Ved ratioskalaen er der et naturligt nulpunkt, hvorfor man kan tale om forhold - f.eks. at en respondent, der tjener 400.000 kr. tjener dobbelt så meget, som en der tjener 200.000. Derimod kan en variabel for varmegrader i Celsius kan ikke betegnes som en ratioskaleret variabel, men ’kun’ intervalskaleret. 20 grader er f.eks. ikke dobbelt så varmt som 10 grader, fordi nulpunktet på denne skala ikke er noget naturgivent eller naturligt. Normalt betragtes intervalskalaen og ratioskalaen under ét, da man kan foretage samme typer af analyser med begge. Derimod er skelnen mellem de tre hovedgrupper uhyre vigtig. I spørgeskemakonstruktionen skal der således allerede gøres overvejelser om, hvilke analysemetoder, der ønskes benyttet.
2. STIKPRØVEUDTRÆK Ikke sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ikke! - ifm. pilotundersøgelse el. rent teknisk afprøvning - hvor populationen ikke kan afgrænses særlig præcist - særlige tilfælde af meningsmålinger - osv. De to hovedgrupper af stikprøver Sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes! - Simpel tilfældig udvælgelse - Systematisk udvælgelse - Stratificeret udvælgelse - Klyngeudvælgelse - Flertrins kombinationsformer
Udvalgsramme ° × ° Stikprøve × × ° × × ° ° × × × ° ° ° × ° ° × × × × × ° ° × ° ° ° × ° × ° × × ° ° × × ° × ° ° × ° × ° ° ° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Simpel tilfældig eller systematisk udvælgelse Simpel tilfældig: Enhederne i udvalgsrammen nummereres, og ved simpel tilfældig udvælgelse udtrækkes dernæst en række helt tilfældige numre (f.eks. ved computergenerering af tilfældige numre). Ved systematisk udvælgelse udtages i stedet enheder med et bestemt mellemrum, sådan som det er illustreret herunder. Mellemrummet bestem-mes ved at dividere antal enheder i udvalgsrammen med det ønskede antal i stik-prøven, og der startes ved et tilfældigt nummer mellem én og det, der skal springes med. De to måder kan som regel sammenlignes mht. sikkerheden i inferens til populationen. Systematisk:
Proportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes simpelt og tilfældigt et antal enheder fra hvert strata, sådan at proportionerne svarer nøjagtigt til proportionerne i populationen/udvalgsrammen.I eksemplet her kunne der f.eks. være tale om en strataopdeling på køn.
Disproportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes - f.eks. simpelt og tilfældigt - et antal enheder fra hvert strata, men sådan at proportionerne ikke svarer til proportionerne i populationen/udvalgs-rammen. Metoden benyttes ofte, når et eller flere for analysen væsentlige strata indeholder for få observationer. Skal der i analysen f.eks. beregnes populations-gennemsnit for en variabel, vægtes analyseenhederne, sådan at proportionerne igen passer med populationen.
Klyngeudvælgelse 1. trin 2. trin 1 × 2 1 × × × × ° ° ° ° × ° ° × × ° ° ° ° × ° ° × ° × ° ° ° × × × × × ° × × ° × × × × × 3 4 4 ° × × × ° ° ° ° ° ° ° × ° ° ° ° × × × ° ° ° × × ° ° × × × × ° Ved klyngeudvælgelse inddeles populationen i et antal klynger (ofte bl.a. baseret på geografi), og til forskel fra stratificering udvælges tilfældigt et vist antal hele klynger. Er der tale om enkelttrins klyngeudvælgelse, udtages samtlige enheder i de udvalgte klynger til stikprøven. Er der derimod tale om flertrins klyngeudvælgelse, foretages der stikprøveudtagning fra de udtrukne klynger - f.eks. simpelt tilfældigt. Formålet ved klyngeudvælgelse er ofte at få bragt udgifterne ned ved at centrere interviewene på bestemte steder samt at sikre sig en bred geografisk dækning.
Bortfald • Bortfald inddeles i partielt bortfald og objektbortfald. Ved objektbortfald falder - som navnet fortæller - hele objekter/cases fra. Ved partielt bortfald derimod falder kun dele af disse fra. Ved almindelig surveyundersøgelse vil det sige, at respondenter af forskellig årsag undlader at svare på visse spørgsmål - f.eks. vedrørende indkomst eller andre følsomme områder eller svære og/eller dårligt stillede spørgsmål. • Det drejer sig om at minimere bortfaldet, eller - hvis dette ikke kan lade sig gør - at tilstræbe og håbe på tilfældigt fordelt objektbortfald. Er bortfaldet således meget forskelligt fra populationen (f.eks. overvægt af lavtuddannede, mænd og enlige), kan det være forbundet med vanskeligheder og måske være helt umuligt at inferere fra stikprøve til population. En mulig løsning er vægtning. • Størst bortfald ses som regel ved enquete-undersøgelser - dvs. postomdelte spørgeskemaundersøgelser. Ofte laves imidlertid kombinationsdesign, således at der først postomdeles og dernæst telefoneres til de respondenter, der ikke svarede i første omgang - dette gælder f.eks. de ISSP-undersøgelser, som I skal analysere på i dette kursus.
Vægtning af data I forbindelse med stikprøveudtræk er det vigtigt at have spørgsmålet om vægtning (eller poststratificering) med i overvejelserne. Vægtning kan komme på tale, hvis: • Ikke alle cases har lige stor sandsynlighed for at blive udtrukket til stikprøven • Frafaldet af cases (f.eks. som følge af ikke besvarede spørgeskemaer) er skævt fordelt på en eller flere parametre. Vægtningsproblematikken er ikke del af pensum, men burde være det!
3. SPØRGESKEMAKONSTRUKTIONHvad påvirker, hvilke spørgsmål der stilles? • Undersøgelsesspørgsmålet. • Hypoteser om sammenhænge ml. variable. • Operationaliseringen. • De analysemetoder, man ønsker at benytte. • Hvordan spørgeskemaet skal administreres.
Hvad er det for et indhold, man går efter? • Egenskaber/attributter • Adfærd • Fakta om andre • Informant oplysning • Viden • Holdninger/attituder • Overbevisning • Normer og værdier
Tidsdimensionen i spørgsmålet Ud over indholdsdimensionen i spørgsmålet kan man tale om en tidsdimension også: • Retrospektive spørgsmål (om fortiden)F.eks.: Var de tilhænger eller modstander af EF i 1972? • Aktuelle spørgsmål (aktuelle)F.eks.: Er De tilhænger eller modstander af den fælles valuta i EU? • Prospektive spørgsmål (om fremtiden)F.eks.: Hvornår tror De, De vil trække Dem tilbage fra arbejdsmarkedet? Disse begreber er ikke del af pensum!
Eksempler på uheldige formuleringer (1) Voldskriminalitet og AIDS er nogle af de største problemer i dagens Danmark. Svarkategorier: ’Meget enig’, ’noget enig’, ’hverken enig eller uenig’, ’noget uenig’, ’meget uenig’, ’ved ikke’. Spørgsmålet er dobbeltløbet!
Eksempler på uheldige formuleringer (2) Studerende burde ikke skulle tage lån for at finansiere deres studier. Svarkategorier: ’Enig’, ’Uenig’, ’Ved ikke’. Der forekommer dobbelt negation!Dvs. der er negation i både spørgsmål og blandt svarkategorier.
Eksempler på uheldige formuleringer (3) Hvor ofte går du i biografen? Svarkategorier: ’Meget ofte’, ’Ofte’, ’Ikke særlig ofte’, Slet ikke’. Spørgsmålet giver forskellig mening for forskellige respondenter!
Eksempler på uheldige formuleringer (4) Hvor ofte var du i biografen sidste år?(skriv antal gange) Spørgsmålet er for præcist?
Eksempler på uheldige formuleringer (5) Hvad er din årlige, personlige indkomst før skat?(skriv indkomst i hele kroner) kr. Spørgsmålet kan virke unødvendigt og måske fornærmende detaljeret!
Eksempler på uheldige formuleringer (6) Følger du alle forelæsninger på dit studie? Svarkategorier: ’Ja’, ’Nej’ Der forekommer ’alt eller intet’-ord som alle, ingenting, aldrig osv.?
Åbne eller lukkede formater til svar (1) Lukket format: Hvad er din årlige, personlige indkomst før skat?(afkryds kun én boks) Under 100.000 kr.100.000-199.999 kr.200.000-299.999 kr.300.000-499.999 kr.500.000 eller derover Åbent format: Hvad er din årlige, personlige indkomst før skat?(skriv indkomst i hele kroner) kr. Hvilket år er De født?(skriv årstal, f.eks. 1954)
Åbne eller lukkede formater til svar (2) Åben kategori: Hvilken af følgende grunde havde du til ikke at stemme ved seneste folketingsvalg? (afkryds kun én boks) Jeg var ikke gammel nok Jeg ville gerne stemme, men havde ikke mulighed for at komme til afstemningsstedet Jeg forstod ikke nok om politik Jeg var ikke interesseret i politik Jeg stemmer af princip ikke Jeg glemte det Jeg kunne ikke beslutte mig Anden årsag (skriv venligst hvilken) Kan ikke vælge
Åbne eller lukkede formater til svar (3) Et ’rigtigt’ åben format: Der er mange politiske spørgsmål til debat i øjeblikket. Hvilke problemer mener De er de vigtigste, som politikerne skal tage sig af i dag? (skriv svarene)
Eksempel hvor svarkategorierne ikke er fyldestgørende (punkt 1): Hvor ofte bruger du folkebiblioteket i din kommune? Dagligt Flere gangeom ugen Et par gangeom måneden Sjældnere Slet ikke Vigtigt vedrørende svarkategorier • Svarkategorierne skal give alle respondenter mulighed for at svare fornuftigt (altdækkende liste af svarkategorier, evt. ved hjælp af ’andet’-kategori). • Hvis der lægges op til, at respondenten kun må sætte kryds ud for én svarkategori, må der ikke opstå behov for at give mere end netop et svar. • Sørg for at balancere siderne i ordinalt inddelte svarkategorier ligeligt.
Ting der skal overvejes ifm. svarkategorier • Skal der være mulighed for at svare ’ved ikke’ eller lignende? • Skal der være et lige eller ulige antal svarkategorier plus evt. en ’ved ikke’-kategori i rangordnede svar til holdningsspørgsmål? (Med andre ord: skal der være en midterkategori?) • Hvor mange svarkategorier skal der være?
Eksempel på rangordnede svarkategorier (1) Hvor tilfreds er du med folkeskoleområdet i din kommune?(sæt ét kryds) Meget tilfreds Noget tilfreds Hverken tilfreds eller utilfreds Noget utilfreds Meget utilfreds Ved ikke Hvor vigtigt synes du folkeskoleområdet er ift. andre serviceområder?(sæt ét kryds) Meget vigtigt Noget vigtigt Ikke ret vigtigt Slet ikke vigtigt Ved ikke
Eksempel på rangordnede svarkategorier (2) De danske kommuner har ansvaret for forskellige former for service, heriblandt ældreomsorg, børnepasning, folkeskole, biblioteker og kulturelle arrangementer. Hvor tilfreds er De i almindelighed med disse former for service i Deres kommune? Angiv Deres holdning på en skala fra 0 (meget utilfreds) til 10 (meget tilfreds). Megetutilfreds Megettilfreds Vedikke 0 1 2 3 4 5 6 7 8 9 10 98
’Multiple response’ ’Multiple choice’ betyder blot, at der er flere faste svarkategorier, mens ’multiple response’ betyder, at respondenten har mulighed for at give flere svar til samme spørgsmål. Eksempel på ’multiple response’: Hvad er de væsentligste problemer, som De har haft inden for de seneste 12 måneder?(sæt maksimalt tre krydser!) Fysisk sygdom Psykiske problemer Familiære problemer Økonomiske problemer Retmæssige problemer Andre (skriv hvilke!)
’Response set’ (eller ’Response bias’) (1) • Betydning:Tendensen til, at en person svarer på en bestemt måde, uafhængigt af spørgsmålets indhold. • To gængse udgaver af ’response set’: • Respondentens tendens til at erklære sig enig i alt (acquiescence) • Respondentens tendens til at svare efter, hvad der synes at give et godt indtryk af respondentens person (social desirability).
’Response set’ (eller ’Response bias’) (2) ’Response set’ forekommer ofte ved samlinger af items (grids): Agreestrongly Neithernor Disagreestrongly • I don’t think public officials care much what people like me think. • The way people vote is the main thing that decides how things are run in this country. • Voting is the only way that people like me can have any say about how the government runs things. • People like me don’t have any say about what the government does. • Sometimes politics and government seem so complicated that a person like me can’t really understand what’s going on.
Overordnet design af spørgeskemaet • Benyt filtrering • Indsæt instruktioner undervejs i skemaet til respondenten • Tænk over skemaets layout • Overvej spørgsmålsrækkefølge • Benyt prækodning • Overvej om længden af skemaet er passende • Foretag eventuelt pilottest af skemaet • Endvidere ved telefoninterview: Tænk ekstra over, om der forekommer lange og kryptiske formuleringer, og sørg for information til intervieweren