410 likes | 938 Views
Statistik og kvantitativ metode Efterår 2005 Forelæsning 2 Stikprøveudtræk og spørgeskemakonstruktion. 1. VARIABLE OG DERES MÅLENIVEAU Hvad er en variabel?. En variabel er en egenskab eller karakteristik, som kan variere mellem cases/enheder i en stikprøve (eller en population).
E N D
Statistikog kvantitativ metodeEfterår 2005Forelæsning 2Stikprøveudtræk og spørgeskemakonstruktion
1. VARIABLE OG DERES MÅLENIVEAU Hvad er en variabel? En variabel er en egenskab eller karakteristik, som kan variere mellem cases/enheder i en stikprøve (eller en population). Eksempler på variable: • Køn (kvinde, mand) • Partistemme (Venstre, Socialdemokratiet, Konservative Folkeparti, Socialistisk Folkeparti osv.) • Alder i hele år (0, 1, 2, 3, 4, .....osv.) • Kommunale udgifter til folkeskoler (beløb i kroner) • Type af velfærdsstat som et land tilhører
En vigtig årsag til at kunne identificere måleniveau Den væsentligste grund til at skelne mellem forskellige måleniveauer er, at der til de enkelte måleniveauer kan foretages forskellige typer af statistiske analyser. F.eks. kan man ikke beregne gennemsnit af nominelle variable, ligesom man ikke kan foretage lineær regression eller variansanalyse med nominelle variable
En del forvirrende begreber! Kvalitativ Diskret kvantitativ kontinuert Plus derudover inddelingen i henholdsvis nominelle, ordinale og interval-/ratioskalerede variable. De væsentligste at holde styr på er imidlertid de tre sidstnævnte!
Nominalskala Nominalskalaen er den ”laveste”. Her kan man alene sige noget om forskel eller lighed mellem to cases/respondenter på den pågældende variabel - f.eks. at to respondenter begge er tømrer, eller at den ene er tømrer og den anden murer. Nominal-skaleret variabel Cases(I dette tilfælde er en case en person eller respondent)
Ordinalskala Ved ordinalskalaen er det endvidere muligt at sige noget om rangordenen mellem forskellige respondenter - f.eks. at en respondent er mere eller mindre tilfreds end en anden. Ordinalskaleret variabel
Intervalskala Ved intervalskalaen kan man ud over rangordenen måle afstanden mellem kategorierne. Det giver f.eks. mening at sige, at afstanden mellem 180.000 kr. og 200.000 kr. er den samme som mellem 200.000 og 220.000 – nemlig 20.000 kr. Intervalskaleret variabel
Ratioskala Ved ratioskalaen er der et naturligt nulpunkt, hvorfor man kan tale om forhold - f.eks. at en respondent, der tjener 400.000 kr. tjener dobbelt så meget, som en der tjener 200.000. Derimod kan en variabel for varmegrader i Celcius kan ikke betegnes som en ratioskaleret variabel, men ’kun’ intervalskaleret. 20 grader er f.eks. ikke dobbelt så varmt som 10 grader, fordi nulpunktet på denne skala ikke er noget naturgivent eller naturligt. Normalt betragtes intervalskalaen og ratioskalaen under ét, da man kan foretage samme typer af analyser med begge. Derimod er skelnen mellem de tre hovedgrupper uhyre vigtig. I spørgeskemakunstruktionen skal der således allerede gøres overvejelser om, hvilke analysemetoder, der ønskes benyttet.
2. STIKPRØVEUDTRÆK Ikke sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ikke! - ifm. pilotundersøgelse el. rent teknisk afprøvning - hvor populationen ikke kan afgrænses særlig præcist - særlige tilfælde af meningsmålinger - osv. Stikprøver Sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes! - Simpel tilfældig udvælgelse - Systematisk udvælgelse - Stratificeret udvælgelse - Klyngeudvælgelse - Flertrins kombinationsformer
Simpel tilfældig eller systematisk udvælgelse Udvalgsramme ° × ° Stikprøve × × ° × × ° ° × × × ° ° ° × ° ° × × × × × ° ° × ° ° ° × ° × ° × × ° ° × × ° × ° ° × ° × ° ° ° Enhederne i udvalgsrammen nummereres, og ved simpel tilfældig udvælgelse udtrækkes dernæst en række helt tilfældige numre (f.eks. ved computer-generering af tilfældige numre). Ved systematisk udvælgelse udtages i stedet enheder med et bestemt mellemrum, sådan som det er illustreret herunder. Mellemrummet bestem-mes ved at dividere antal enheder i udvalgsrammen med det ønskede antal i stik-prøven, og der startes ved et tilfældigt nummer mellem én og det, der skal springes med. De to måder kan som regel sammenlignes mht. sikkerheden i inferering til populationen. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Proportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes simpelt og tilfældigt et antal enheder fra hvert strata, sådan at proportionerne svarer nøjagtigt til proportionerne i populationen/udvalgsrammen.I eksemplet her kunne der f.eks. være tale om en strataopdeling på køn.
Disproportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes - f.eks. simpelt og tilfældigt - et antal enheder fra hert strata, men sådan at propor-tionerne ikke svarer til proportionerne i populationen/udvalgs-rammen. Benyttes ofte, når et eller flere for analysen væsentlige strata indeholder for få observationer. Skal der i analysen f.eks. beregnes populationsgennemsnit for en variabel, vægtes analyse-enhederne, sådan at proportionerne igen passer med populationen.
Klyngeudvælgelse 1. trin 2. trin 1 × 2 1 × × × × ° ° ° ° × ° ° × × ° ° ° ° × ° ° × ° × ° ° ° × × × × × ° × × ° × × × × × 3 4 4 ° × × × ° ° ° ° ° ° ° × ° ° ° ° × × × ° ° ° × × ° ° × × × × ° Ved klyngeudvælgelse inddeles populationen i et antal klynger (ofte bl.a. baseret på geografi), og til forskel fra stratificering udvælges tilfældigt et vist antal hele klynger. Er der tale om enkelttrins klyngeudvælgelse, udtages samtlige enheder i de udvalgte klynger til stikprøven. Er der derimod tale om flertrins klyngeudvælgelse, foretages der stikprøveudtagning fra de udtrukne klynger - f.eks. simpelt tilfældigt. Formålet ved klyngeudvælgelse er ofte at få bragt udgifterne ned ved at centrere interviewene på bestemte steder samt at sikre sig en bred geografisk dækning.
Bortfald • Bortfald inddeles i partielt bortfald og objektbortfald. Ved objektbortfald falder - som navnet fortæller - hele objekter/cases fra. Ved partielt bortfald derimod falder kun dele af disse fra. Ved almindelig surveyundersøgelse vil det sige, at respondenter af forskellig årsag undlader at svare på visse spørgsmål - f.eks. vedrørende indkomst eller andre følsomme områder eller svære og/eller dårligt stillede spørgsmål. • Det drejer sig om at minimere bortfaldet, eller - hvis dette ikke kan lade sig gør - at tilstræbe og håbe på tilfældigt fordelt objektbortfald. Er bortfaldet således meget forskelligt fra populationen (f.eks. overvægt af lavtuddannede, mænd og enlige), kan det være forbundet med vanskeligheder og måske være helt umuligt at inferere fra stikprøve til population. En mulig løsning er vægtning. • Størst bortfald ses som regel ved enquete-undersøgelser - dvs. postomdelte spørgeskemaundersøgelser. Ofte laves imidlertid kombinationsdesign, således at der først postomdeles og dernæst telefoneres til de respondenter, der ikke svarede i første omgang - dette gælder f.eks. de ISSP-undersøgelser, som I skal analysere på i dette kursus.
Vægtning I forbindelse med stikprøveudtræk er det vigtigt at have spørgsmålet om vægtning (eller poststratificering) med i overvejelserne. Vægtning kan komme på tale, hvis: • Ikke alle cases har lige stor sandsynlighed for at blive udtrukket til stikprøven • Frafaldet af cases (f.eks. som følge af ikke besvarede spørgeskemaer) er skævt fordelt på en eller flere parametre.
3. SPØRGESKEMAKONSTRUKTIONHvad påvirker, hvilke spørgsmål der stilles? • Undersøgelsesspørgsmålet • Operationaliseringen (i sidste ende indikatorerne) • Hypoteser om sammenhænge ml. variable • De analysemetoder, man ønsker at benytte • Hvordan spørgeskemaet skal administreres
Hvad er det for et indhold, man går efter? • Egenskaber/attributter • Adfærd • Viden • Overbevisning • Holdninger/attituder Faktuelle spørgsmål Kognitive spørgsmål Holdningsspørgsmål(nogle taler desuden om evaluerings-spørgsmål som en underkategori)
Tidsdimensionen i spørgsmålet • Ud over indholdsdimensionen i spørgsmålet kan man tale om en tidsdimension også. • Retrospektive spørgsmål (om fortiden)F.eks.: Var de tilhænger eller modstander af EF i 1972? • Aktuelle spørgsmål (aktuelle)F.eks.: Er De tilhænger eller modstander af den fælles valuta i EU? • Prospektive spørgsmål (om fremtiden)F.eks.: Hvornår tror De, De vil trække Dem tilbage fra arbejdsmarkedet?
Holdningsaspekter • Retning • Styrke • Intensitet
Eksempel: opbakning til VS-stat A: Man er gået for langt med sociale reformer her i landet. Folk burde mere end nu klare sig uden sociale sikringer og bidrag fra samfundet B: De sociale reformer bør opretholdes i mindst samme omfang som nu Procent dif.: Andel B minus andel A (1998:63 pct. - 30 pct.)
Formulering af spørgsmål (fra box 7.2) • Er sproget unødvendigt kompliceret? • Er spørgsmålet for langt? • Er spørgsmålet dobbeltløbet? • Er spørgsmålet ledende? • Forekommer der dobbelt negation? • Har respondenten ikke tilstrækkelig viden? • Giver spørgsmålet forskellig mening for forskellige respondenter? • Er der prestige bias? • Er spørgsmålet tvetydigt? • Er spørgsmålet for præcist? • Er referencerammen uklar? • Skaber spørgsmålet kunstigt en holdning? • Personlig eller ikke personlig formulering? (Vælg hvad der passer!) • Er spørgsmålet unødvendigt og måske fornærmende detaljeret? • Forekommer der ’frit svævende’ alternative svarmuligheder? • Forekommer der accentuering, der giver spørgsmålet en ledende drejning? • Forekommer der ’alt eller intet’-ord som alle, ingenting, aldrig osv.?
Eksempler på uheldige formuleringer (1) Dårligt eksempel: Voldskriminalitet og AIDS er nogle af de største problemer i dagens Danmark. Svarkategorier: ’Meget enig’, ’noget enig’, ’hverken enig eller uenig’, ’noget uenig’, ’meget uenig’, ’ved ikke’. ad punkt 3 – Er spørgsmålet dobbeltløbet?dvs. er der to spørgsmål i et?
Eksempler på uheldige formuleringer (2) Dårligt eksempel: Studerende burde ikke skulle tage lån for at financiere deres studier. Svarkategorier: ’Enig’, ’Uenig’, ’Ved ikke’. ad punkt 5 – Forekommer der dobbelt negation?dvs. er der negation i både spørgsmål og blandt svarkategorier?
Eksempler på uheldige formuleringer (3) Dårligt eksempel: Hvor ofte går du i biografen? Svarkategorier: ’Meget ofte’, ’Ofte’, ’Ikke særlig ofte’, Slet ikke’. ad punkt 7 – Giver spørgsmålet forskellig mening for forskellige respondenter?
Eksempler på uheldige formuleringer (4) Dårligt eksempel: Hvor ofte var du i biografen sidste år?(skriv antal gange) ad punkt 10 – Er spørgsmålet for præcist?
Eksempler på uheldige formuleringer (5) Dårligt eksempel: Hvad er din årlige, personlige indkomst før skat?(skriv indkomst i hele kroner) kr. ad punkt 14 – Er spørgsmålet unødvendigt og måske fornærmende detaljeret?
Eksempler på uheldige formuleringer (6) Dårligt eksempel: Følger du alle forelæsninger på dit studie? Svarkategorier: ’Ja’, ’Nej’ ad punkt 17 – Forekommer der ’alt eller intet’-ord som alle, ingenting, aldrig osv.?
Åbne eller lukkede formater til svar (1) Lukket format: Hvad er din årlige, personlige indkomst før skat?(afkryds kun én boks) Under 100.000 kr.100.000-199.999 kr.200.000-299.999 kr.300.000-499.999 kr.500.000 eller derover Åbent format: Hvad er din årlige, personlige indkomst før skat?(skriv indkomst i hele kroner) kr. Hvilket år er De født?(skriv årstal, f.eks. 1954)
Åbne eller lukkede formater til svar (2) Åben kategori: Hvilken af følgende grunde havde du til ikke at stemme ved seneste folketingsvalg? (afkryds kun én boks) Jeg var ikke gammel nok Jeg ville gerne stemme, men havde ikke mulighed for at komme til afstemningsstedet Jeg forstod ikke nok om politik Jeg var ikke interesseret i politik Jeg stemmer af princip ikke Jeg glemte det Jeg kunne ikke beslutte mig Anden årsag (skriv venligst hvilken) Kan ikke vælge
Åbne eller lukkede formater til svar (3) Et ’rigtigt’ åben format: Der er mange politiske spørgsmål til debat i øjeblikket. Hvilke problemer mener De er de vigtigste, som politikerne skal tage sig af i dag? (skriv svarene)
Eksempel hvor svarkategorierne ikke er fyldestgørende (punkt 1): Hvor ofte bruger du folkebiblioteket i din kommune? Dagligt Flere gangeom ugen Et par gangeom måneden Sjældnere Slet ikke Vigtigt vedrørende svarkategorier • Svarkategorierne skal give alle respondenter mulighed for at svare fornuftigt (altdækkende liste af svarkategorier, evt. ved hjælp af ’andet’-kategori). • Hvis der lægges op til, at respondenten kun må sætte kryds ud for én svarkategori, må der ikke opstå behov for at give mere end netop et svar. • Sørg for at balancere siderne i ordinalt inddelte svarkategorier ligeligt.
Ting der skal overvejes ifm. svarkategorier • Skal der være mulighed for at svare ’ved ikke’ eller lignende? • Skal der være et lige eller ulige antal svarkategorier plus evt. en ’ved ikke’-kategori i rangordnede svar? (Med andre ord: skal der være en midterkategori?) • Hvor mange svarkategorier skal der være? (Meste relevant spørgsmål for rangordnede svar.)
Eksempel på rangordnede svarkategorier (1) Hvor tilfreds er du med folkeskoleområdet i din kommune?(sæt ét kryds) Meget tilfreds Noget tilfreds Hverken tilfreds eller utilfreds Noget utilfreds Meget utilfreds Ved ikke Hvor vigtigt synes du folkeskoleområdet er ift. andre serviceområder?(sæt ét kryds) Meget vigtigt Noget vigtigt Ikke ret vigtigt Slet ikke vigtigt Ved ikke
Eksempel på rangordnede svarkategorier (2) De danske kommuner har ansvaret for forskellige former for service, heriblandt ældreomsorg, børnepasning, folkeskole, biblioteker og kulturelle arrangementer. Hvor tilfreds er De i almindelighed med disse former for service i Deres kommune? Angiv Deres holdning på en skala fra 0 (meget utilfreds) till 10 (meget tilfreds). Megetutilfreds Megettilfreds Vedikke 1 2 3 4 5 6 7 8 9 10 98
’Multiple choice’ og ’multiple response’ ’Multiple choice’ betyder blot, at der er flere faste svarkategorier, mens ’multiple response’ betyder, at respondenten har mulighed for at give flere svar til samme spørgsmål. Eksempel på ’multiple response’: Hvad er de væsentligste problemer, som De har haft inden for de seneste 12 måneder?(sæt maksimalt tre krydser!) Fysisk sygdom Psykiske problemer Familiære problemer Økonomiske problemer Retmæssige problemer Andre (skriv hvilke!)
’Response set’ (eller ’Response bias’) (1) • Betydning:Tendensen til, at en person svarer på en bestemt måde, uafhængigt af spørgsmålets indhold. • To gængse udgaver af ’response set’: • Respondentens tendens til at erklære sig enig i alt (acquiescence) • Respondentens tendens til at svare efter, hvad der synes at give et godt indtryk af respondentens person (social desirability).
’Response set’ (eller ’Response bias’) (2) ’Response set’ forekommer ofte ved samlinger af items (grids): Agreestrongly Neithernor Disagreestrongly • I don’t think public officials care much what people like me think. • The way people vote is the main thing that decides how things are run in this country. • Voting is the only way that people like me can have any say about how the government runs things. • People like me don’t have any say about what the government does. • Sometimes politics and government seem so complicated that a person like me can’t really understand what’s going on.
Overordnet design af spørgeskemaet • Benyt filtrering • Indsæt instruktioner undervejs i skemaet til respondenten • Tænk over skemaets layout • Overvej spørgsmålsrækkefølge • Benyt prækodning • Overvej om længden af skemaet er passende • Foretag eventuelt pilottest af skemaet • Endvidere ved telefoninterview: Tænk ekstra over lange og kryptiske formuleringer, og sørg for information til intervieweren