370 likes | 594 Views
Utvalg. Forelesning 25.04.2000 av Avdelingsleder Øyvind Brekke Plan for undervisningen: 1. Avklaring av en del sentrale begreper 2. Utvalgsmetoder -sannsynlighetsutvalg 3. Utvalgsstørrelse 4. Skjevhet 5. Vekting. Hvorfor trekke utvalg?. Utvalg
E N D
Utvalg • Forelesning 25.04.2000 av Avdelingsleder Øyvind Brekke • Plan for undervisningen: • 1. Avklaring av en del sentrale begreper • 2. Utvalgsmetoder -sannsynlighetsutvalg • 3. Utvalgsstørrelse • 4. Skjevhet • 5. Vekting
Hvorfor trekke utvalg? • Utvalg • Reduserer kostnadene ved datainnsamling og bearbeiding • Kan også redusere muligheten for bearbeidingsfeil, ved at administrasjonsoppgaven rundt målingen blir mindre enn hvis alle ble spurt. • Er interessert i at resultatene fra undersøkelsen skal kunne si noe om alle enhetene problemstillingen gjelder • Generaliseringsproblem • Vi søker å trekke konklusjoner om en endelig populasjon basert på en undersøkelse av noen av individene (enhetene) i denne populasjonen (utvalg eller sample). • Det er viktig å huske på at når vi trekker konklusjoner fra estimater basert på utvalgsteori, uttaler vi oss kun om de elementene som inngår i populasjonen.
Populasjon • En populasjon er en mengde enheter som innehar et sett med bestemte karakteristika. • Den er (som regel) endelig i tid og rom. • Slike populasjoner kan være • Norges befolkning • Kunder av ”Banken” • Menn i alderen 19 til 25 i en bestemt kommune
Hva er egentlig populasjonen min? • Formålet/problemstillingen gir som oftest føringer på hvilket • enhetsnivå (Land/landsdel/grunnkrets/husstand/person) og • tidsmessig utstrekning (År/kvartal/måned/uke/dag) man trenger å ta hensyn til • Som så ofte ellers i markedsanalyse, så vi et godt forarbeid i form av grundig gjennomtenking av hva undersøkelsen skal brukes til, gi et greiere grunnlag for å bestemme hva populasjonene består av. • For eksempel: Tenker bankkunder på å bytte bank? (Nice to know….) • Sammenliknet med: Hvor mange prosent av ”Bankens” kunder vil i dag si de har planer om å skifte til en annen bank, sammenliknet med kundene til de tre største konkurrentene? (Skal brukes til konkurrentovervåkning og eventuelt beslutning om lojalitetsskapende arbeid)
Hvor mange skal undersøkes? To mulige strategier • ”Intensiv” • Få enheter, for å få med så mange variable som mulig • Gir muligheter for detaljkunnskap om enheten en undersøker og kjennskap til dens verdier på en lang rekke variable. Gir som regel bedre grunnlag for å utforske komplekse sammenhenger man kjenner lite til på forhånd • Fokusgrupper • ”Ekstensiv” • Redusert antall variable til fordel for opplysninger om et høyt antall enheter. • Gir muligheter for å studere variasjonen i verdiene på ulike variabler som forekommer hos enhetene. Mange observasjoner, gir som regel bedre grunnlag for å trekke generelle slutninger. • Kvantitativ analyse
Generalisering • Vi ønsker å få kjennskap til verdiene for variablene i hele populasjonen. • Vårt mål er vanligvis å anslå ulike: • Gjennomsnitt: • Hvor tilfredse kundene er (på en skala fra 1 til 6) • Hvor ofte kjøper kunden en spesiell vare. • Andeler: • Hvor mange med høy tilfredshet • Hvor mange som ønsker å bytte leverandør. • Vi trekker et utvalg av populasjons enhetene og undersøker variabelverdiene til de uttrukne enhetene. Basert på disse verdiene kan vi lage et anslag på verdiene i hele populasjonen.
Generalisering • Hvordan vi på grunnlag av observasjonene i et utvalg fra en populasjon skal kunne si noe om det vi ville fått dersom alle enhetene i populasjonen var blitt undersøkt. • Forutsetning av at de mulige utvalgene har en kjent sannsynlighet for å bli trukket ut, - utvalget er et såkalt sannsynlighetsutvalg.
Valg av utvalgsmetode • To hovetyper • Sannsynlighetsutvalg • Enkelt tilfeldig utvalg • Stratifisert utvalg • Proporsjonalt • Disproporsjonalt • Klyngeutvalg • Systematiske (hver n-te mulige respondent) • Geografisk/område • Ikke-sannsynlighetsutvalg • Bekvemmelighetsutvalg (en på gaten, en million på innringings-telefonen) • Vurderingsutvalg (Jeg tror det er lurt å snakke med…..) • Kvoteutvalg (Jeg vil ha tak i 3 menn og 3 kvinner…..)
Stratifisert utvalg • Stratifisert utvalg • Grupperer først populasjonen i ulike strata (lag) basert på en kjent variabel som det antas er viktig å holde kontroll med. • Utvalget trekkes deretter ved enkel tilfeldig utvalg innenfor hvert stratum. • Proporsjonal stratifisering • Andelen respondenter i utvalget tilsvarer andelen respondenter i populasjonen på stratifiseringsvariabelen • Disproporsjonal stratifisering • Andelen respondenter i utvalget avviker fra andelen respondenter i populasjonen på stratifiseringsvariabelen
Klyngeutvalg • Systematiske (hver n-te mulige respondent) • Man starter med en tilfeldig respondent (”adresse”), og trekker deretter hver femte, eller hver tiende eller liknende. Hvis det er sammenheng mellom rekkefølgen i universlisten/utvalgsrammen og det man skal undersøke, risikerer man at det oppstår systematiske skjevheter. • Geografisk/område • Ofte brukt i personlige undersøkelser, hvor man velger ut noen klynger, for eksempel kommuner, og undersøker mange respondenter innenfor hver klynge, istedenfor å ”reise rundt” for å intervjue en og en. • Klyngeutvalg øker feilmarginene, og det er vanskelig å fastslå nøyaktig hvor mye. SSB bruker en økningsfaktor på 1,2 for sine befolkningsundersøkelser. (Hellevik 1984:319)
Sannsynlighetsutvalg • Uttrekk av enheter på en slik måte at en etterpå kan generalisere resultatene med en nøyaktig spesifisert grad av sikkerhet kalles sannsynlighetsutvalg. • Enhetene som inngår i problemstillingen: • teoretiske univers eller • populasjonen. • Uttrekket må skje slik at alle mulige utvalg har enn kjent sannsynlighet for å bli trukket ut. Altså en avgrenset populasjon, med en kjent sannsynlighet pr. individ for å bli trukket ut. • Tilfeldighetsmekanisme. • En felles betegnelse for denne type utvalg er sannsynlighetsutvalg. • Enkelt tilfeldig utvalg betyr at sannsynligheten for å bli trukket ut er kjent og lik for alle enhetene i utvalgsrammen
Tilfeldige utvalg: et eksempel • Hver dag fødes det 15 barn på et tilfeldig sykehus. • På grunn av at kjønnet bestemmes av tilfeldigheter vil andelen av gutter og jenter blant de 15 barna variere mye fra dag til dag. • Det er for eksempel mulig at det en dag fødes 12 jenter og 3 gutter og neste dag 12 gutter og 3 jenter. • Tilfeldighetene skaper nettopp det ”kaos” og den store variasjon som vi skulle vente. Ser vi derimot på alle barna som fødes i Norge i løpet av et år: Dette er påfallende stabile tall. Det ser ut som tilfeldighetselementet er forsvunnet, og at det i stedet er inntruffet en form for determinisme Og at denne determinismen sikrer at det fødes omtrent like mange gutter som jenter hvert år i Norge
Tilfeldige avvik? • Behovet for å regne på tilfeldighetene: • I et gitt år ble det drept 338 mennesker i trafikken på norske veier. Året etter var antallet drepte hele 401 mennesker. Et naturlig spørsmål å stille seg er om denne observerte økningen på hele 19 prosent er en tilfeldig endring eller om det er et uttrykk for om veiene begynner å bli farligere. • Ingen venter at tallene er de samme fra år til år, noe tilfeldig variasjon vil det alltid være. • Spørsmålet er om de endringene en ser, er større enn de som tilfeldighetene i seg selv kan vente å forårsake. • For å kunne svare på dette, må en være i stand til å beregne hvor store endringer tilfeldighetene med rimelighet kan være opphav til.
Sannsynlighetsfordeling • Grunnlaget for å regne på tilfeldigheter ligger i sannsynlighetsteorien og sannsynlighetsbegrepet. • Sannsynlighetsbegrepet er nettopp knyttet til mange gjentakelser av et stokastisk (tilfeldig) forsøk. Sannsynligheten for ett bestemt utfall er den relative hyppigheten utfallet opptrer med i det lange løp, dvs når forsøket tenkes gjentatt og gjentatt i det uendelige. • Sannsynlighetsfordeling • Ved å se på de forskjellige mulige verdiene av en stokastisk variabel, og sannsynligheten for disse får vi en såkalt sannsynlighetsfordeling. Denne gir en beskrivelse av den tilfeldige variasjonen.
Tilfeldig utvalg: et eksempel Vi ser her sannsynligheten for antall jenter i et tilfeldig utvalg på 4 fra en populasjon på totalt 11 personer med 5 gutter og 6 jenter.
Tilfeldig utvalg: enda et eksempel Sannsynlighets histogrammet til den stokastiske variabelen X
Normalfordelingen • Sannsynlighetsfordelinger med en enkel symmetrisk klokkeform. • Normalfordelingen har mean (forventning) og et standardavvik .
Tilfeldighetsmekanisme og usikkerhet • Det som ligger til grunn for et sannsynlighetsutvalg er at uttrekket styres av en tilfeldighets-mekanisme. Denne fremgangsmåten sikrer at enhetene i utvalget ikke vil atskille seg fra enhetene i populasjonen på noen systematisk måte. • Avvikene som forekommer, er et resultat av tilfeldig variasjon og ikke av systematiske skjevheter ved uttrekket. Og ved sannsynlighetsutvalg kan vi beregne hvor stor tilfeldig variasjon vi må regne med.
Usikkerhet • Hva bestemmer usikkerheten ? • Hvor mye resultatene i utvalget kan avvike fra den faktisk populasjonen avhenger av selve opplegget for sannsynlighetsutvalget. • Feilmarginen avhenger også av hvor stor variasjon det er innenfor populasjonen når det gjelder de egenskaper en undersøker. Jo mer homogent universet er, jo bedre kan en forvente at utvalget avspeiler det. • En tredje faktor er utvalgets størrelse. Jo flere enheter en tar med i utvalget, jo mindre er sjansene for at tilfeldighetenes spill vi gi utvalget egenskaper som avviker sterkt fra populasjonen.
Hvor stort må et utvalg være? • Det finnes ikke noe entydig svar på hvor stor et utvalg må være. • En må først gjøre seg opp en mening om målsettingen med undersøkelsen, og om de usikkerhetene en vil akseptere. • En må også ha visse ideer om hva slags resultater en kan forvente. Viktig: Det er et fundamentalt prinsipp at betydningen av tilfeldig variasjon ned dempes ved gjentagelser. Et viktig element i å få kontroll over de tilfeldige variasjonene er dermed å gjøre utvalget stort nok.
Valg av utvalgsstørrelse • Fem faktorer som har betydning for utvalgets størrelse: • 1 Analysemetode: Noen analyser stiller krav til et ”minimums-antall” for å gi pålitelige resultater (Kji-kvadrat og i praksis ofte også regresjon) • (men dataprogrammene gir resultater uansett, pass opp for GIGO-analyse…) • 2 Budsjett (ofte i motstrid med neste punkt) • 3 Nøyaktighetskrav (ofte i motstrid med forrige punkt) • 4 Populasjonsvarians (Jo mer ensartet populasjon, jo færre trenger man å spørre for å oppnå en gitt nøyaktighet) • 5 Populasjonsstørrelse (Når utvalget begynner å bli en vesentlig del av populasjonen kan man justere feilmarginen med faktoren (N-n/N-1) • (Ved uendelig stort utvalg gir dette regelen ”Har du spurt en fjerdedel av utvalget, kan du redusere feimarginen med en fjerdedel”)
Et eksempel: Politisk meningsmåling • En typisk undersøkelse, som for eksempel omnibusen vi gjennomfører hver uke i Gallup, ligger på rundt 1000 • Hvordan kan et utvalg på 1000 personer representere millioner av mennesker ? • Og hvorfor er ikke utvalgene større i USA med over 200 millioner enn i Norge med ca. 4 millioner ? • Sunn fornuft tilsier at den statistiske presisjonen i et utvalg på 1000 nordmenn burde være større enn hos et tilsvarende utvalg på 1000 amerikanere. • Feilmarginen må vel være mindre i det norske utvalget ?
Et eksempel: Politisk meningsmåling • Eksempel Partipreferanser: Andel Sosialister/Borgerlige • Tilfeldig Utvalg: 1000 personer • Anta et det i virkeligheten er lik andel mellom blokkene på tidspunktet vi gjør undersøkelsen. • Det er ikke sikkert, og til og med lite trolig at utvalget vil omfatte 500 sosialister, og 500 borgerlige velgere. • Med sannsynlighetsteorien kan vi beregne ssh for at vi oppnår et skjevt utvalg.
Et eksempel: Politisk meningsmåling • Om vi trekker et utvalg på 1000, ikke bare en gang , men i det uendelige – ville de fleste inneholde omkring 50/50. • Andelene skulle ligge ganske nære den sanne verdi – som vi definerer som forventningen. • I virkeligheten har vi bare vårt ene utvalg, • Og vi kjenner ikke den sanne andelen i befolkningen. • Vi vet heller ikke om vårt utvalg er et av de i teorien med resultat nære den sanne verdi. • Spørsmålet er da om sannsynligheten for at utvalget tilhører minoriteten av skjeve utvalg. • Utvalgsteorien sier at 95 prosent av alle enkle tilfeldige utvalg av 1000 personer vil ha en andel sosialister som ligger innenfor et intervall på ± 3 prosentpoeng rundt den sanne verdien. Vi vet ikke om vårt er blant disse, og i 5 av 100 kommer ikke feilmarginen til å inneholde den sanne verdi.
Hva påvirker feilmarginen? • Hva er det da som påvirker feilmarginens størrelse ? 1. S betegner sikkerhetsnivået vi selv velger for våre resultater. 2. p(1-p) står for den statistiske variansen i utvalget, når denne øker, øker usikkerheten. 3. Når n øker, altså utvalgsstørrelsen, reduseres usikkerheten og feilmarginen. 4. En fjerde faktor, og samtidig den minst viktige er korreksjonsfaktoren, kun relevant når utvalget begynner å bli en vesentlig del av populasjonen.
Utvalgsstørrelse og feilmargin • Generelt gjelder: Reduksjonen i de tilfeldige avvikene er ikke proporsjonal med utvalgets størrelse. • Ved enkelt tilfeldig uttrekk: Er reduksjonen i avvikene proporsjonal med kvadratroten av økningen i antall enheter. • Det vil si for å redusere marginen for feil med det halve, må utvalgets størrelse firedobles. Vi ser i denne sammenhengen bort fra hvor stor populasjonen er (ingen korreksjonsfaktor). Det er utvalgets absolutte og ikke relative størrelse som avgjør hvor stor feilmargin en må regne med.
Hvor stort må et utvalg være ? • Det finnes ikke noe entydig svar på hvor stor et utvalg må være. • En må først gjøre seg opp en mening om målsettingen med undersøkelsen, og om de usikkerhetene en vil akseptere. • En må også ha visse ideer om hva slags resultater en kan forvente. Viktig: Det er et fundamentalt prinsipp at betydningen av tilfeldig variasjon dempes ved gjentagelser. Et viktig element i å få kontroll over de tilfeldige variasjonene er dermed å gjøre utvalget stort nok.
Skjevheter Skjevhet forskjellen mellom observert verdi til en kontrollvariabel og den faktiske (kjente) verdi i populasjonen. • Kan skyldes: • Dårlige og for teknisk formulerte spørsmål • Eksistensen av substansielle (betydningsfulle) forskjeller mellom populasjonen benyttet til utvalg og den faktiske populasjonen. • Frafall 1. Faller utenfor utvalget – 2. Ikke tilgjengelig i intervjuperioden 3..Nekt 4. Vil ikke svare på dette spørsmålet…....
Hva kan skape innebygde skjevheter? EKSEMPEL: Rekruttering • Prosedyre 1. For å få et tilfeldig utvalg vil jeg gjerne snakke med den i husstanden som sist fylte år, blant de som er 15 år eller eldre. • Prosedyre 2. For å få et tilfeldig utvalg vil jeg gjerne snakke med den i husstanden som sist fylte år, blant de som er 15 år eller eldre og som er tilgjengelig!
Vekting • Vekting kan bli aktuelt når utvalget har en sammensetning som avviker fra populasjonen på en eller flere egenskaper (variabler) som samvarierer med den avhengige variabel (den egenskapen vi ønsker å generalisere om). • Årsak: Utvalgsskjevheter som følge av tilfeldigheter • Årsak: Disproporsjonalt stratifisert utvalg. • Årsak: Innebygde skjevheter i spørreskjema/utvalgspraksis • (Man bør ha en bevisst grunn til å vekte, ellers bør man la være)
Forutsetning for vekting • Vi må kjenne fordelingen i populasjonen til variabelen vi ønsker å vekte på! • I mange sammenhenger gjør vi bruk av offentlig statistikk, våre egne baser, databasen til våre kunder som grunnlag for vektene. • Resultatet av veiingen er ment å skulle bedre utvalgets ”representativitet”, med andre ord å rette opp skjevheter i data. • Men dette er forutsatt at de som vektes opp er representative for sin gruppe, at de har den samme variansen som populasjonen.
Vektevariabler • Det er mange faktorer som spiller inn for vektevariabler, men generelt gjelder: • To krav De må være relevante for hovedproblemstillingen i undersøkelsen (Relevans) Fordelingen i populasjonen må være kjent (Observerbar) • Ikke uvanlig at relevans kravet viker Vanlige veievariable er kjønn, alder og geografi. Årsaken til disse er så populære: Fordelingen i populasjonen er rimelig kjent. Store avvik kan gi svekke tilliten til resultatene. I egenskap av å være tradisjonelle bakgrunnsvariabler, er disse variablene nesten alltid aktuelle i analysemodellen. (Ofte problematisk hvordan alder og geografi skal kategoriseres)
Teoretisk Oppsummering • Utvalgsundersøkelser benyttes til å si noe om andeler eller gjennomsnittstall i det universet som utvalget er trukket fra • Utvalget er beheftet med usikkerhet p.g.a tilfeldighetenes spill • Sannsynlighetsutvalg sikrer at vi kan kontrollerer for usikkerheten
Praktisk Oppsummering • I praktisk markedsanalyse er det svært ofte viktigere å tenke grundig gjennom formål, problemstilling og spørsmålsformulering, det utvalgstekniske lar seg som oftest løse, men har man ”bommet” på problemstillingen, er selv en undersøkelse med 50.000 nøye utvalgte respondenter verdiløs! • Det er for eksempel svært vanskelig å måle holdninger som ikke finnes……… • Andelen ”vet ikke” er ofte svært interessant…... • Det er også mye spennende i ”ingen sammenheng” og ”ingen forskjell”…….