340 likes | 542 Views
Databehandling og statistik. 10.05.2010. Dagsorden. Opsamling fra sidste gang Databehandling og kvalitetssikring af data Analyse – eksplorativ eller hypotesestyret Estimere parametre og finde sammenhænge Inferens – signifikanstest og konfidensintervaller. Sidste gang talte vi om, at….
E N D
Databehandling og statistik 10.05.2010
Dagsorden • Opsamling fra sidste gang • Databehandling og kvalitetssikring af data • Analyse – eksplorativ eller hypotesestyret • Estimere parametre og finde sammenhænge • Inferens – signifikanstest og konfidensintervaller
Sidste gang talte vi om, at… • Indsamling af kvantitativ data • Hvordan gennemfører man en spørgeskema undersøgelse • Vær opmærksom på, at lave et velfungerende og validt spørgeskema, der måler de ting, I gerne vil måle – formuleringer, rækkefølge osv. • Tilrettelæg dataindsamlingen, så I ender med en stikprøve, der er repræsentativ for den population, I gerne vil sige noget om • Forhold jer til kvaliteten af det indsamlede data og vær bevidst om jeres begrænsninger, når I konkluderer
I dag skal vi snakke om… • … hvad I gør, når data er indsamlet. • Hvordan I laver analyser og databehandling • Er skåret end, så vi kan nå det i dag.
Og nu hvor data er samlet ind.. Hvad så? • Inden I starter databehandlingen og analyserne: Kast et kritisk blik på stikprøven. • Er den af en tilfredsstillende kvalitet? • Gør rede for jeres observationer og overvejelser
Er der besvarelser nok i stikprøven? • Har I nået det samlede, ønskede antal besvarelser? • Har I nok besvarelser I hver af de undergrupper, som I gerne vil sige noget om? (mindst 40, men gerne flere) • Husk: Jo større behov for at nedbryde resultaterne – jo større stikprøve skal I bruge
Hvis stikprøven er for lille • Usikkerheden stiger – I bliver mindre sikre på resultaterne • I kan måske ikke udtale jer, om enkelte undergrupper, som I ellers gerne ville sige noget om • Man kan generelt blive bekymret for, om der er systematiske skævheder
Svarprocenten • Hvor stor en andel af dem, man har inviteret til at deltage i undersøgelsen, har besvaret den? • En lav svarprocent skaber bekymring om systematisk frafald • En generel kvalitetsindikator • Bør være mindst 50%
Er stikprøven repræsentativ? • Er stikprøven et ”mini-univers” af den population, I gerne vil sige noget om? • Hvad ved I om populationen? • Har I evt. noget data på populationen, som I kan holde stikprøven op imod? • Er der skævheder i stikprøven?
Er stikprøven repræsentativ? • Og hvis man ikke kender populationsfordelingerne? • Svarprocenten er en god generel kvalitetsindikator • Tænk undersøgelses-designet igennem: har jeg virkeligt tænkt på alt? • Evt. input fra eksperter, der kender populationen. • Ser stikprøven fornuftig ud?
Og hvis stikprøven er for lille… • Vil jo ofte skyldes en lav svarprocent • Har I mulighed for at lave en rykkerunde? • Det er en dårlig løsning bare at sende undersøgelsen ud til flere • Alternativt: tag forbehold i fortolkningerne
Og hvis stikprøven ikke er repræsentativ… • Nogle grupper er overrepræsenterede og andre underrepræsenterede • Hvor slemt er det? • Systematisk frafald • Hvis svarprocenten er lav – rykkerrunde • Ellers må der være noget galt med det undersøgelsesdesign, man bruger • Overvej at skifte taktik • Ellers: tag forbehold i konklusionerne
Efter kvalitetssikringen af stikprøven Databehandlingen og analysearbejdet kan begynde….
Analyse og databehandling • Hvordan vil I arbejde? • Hvilken analysetilgang • Eksplorativt: • Ser, hvad data viser • er der noget interessant? • Teoretisk/hypotesestyret: • Tester hypoteser • Afsæt i teori eller forventninger
Analyse og databehandling • Ofte arbejder man både eksplorativt og hypotesestyret på samme tid. • En ren eksplorativ tilgang kan ende i bevidstløs krydsning af data – husk at have hovedet med • Ellers ender I med at finde en masse spuriøse sammenhænge • Muligheden for at teste eventuelle hypoteser skal dog være tænkt i undersøgelsesdesignet fra starten • Det vil ofte være for sent at komme i tanke om det nu…
Analyse og databehandling • De simpleste analyser har en deskriptiv karakter • Estimere parametre – andele, gennemsnit ol. • ”45 % af de adspurgte er tilfredse med deres job” • ”Den gennemsnitlige anciennitet på arbejdspladsen er 3,5 år” • Osv.
Analyse og databehandling • Skridtet over handler om at afdække sammenhænge og kausaliteter • F.eks. sammenhænge mellem baggrundsvariable og holdningsvariable • ”De ansatte i HR-afdelingen er markant mere tilfredse med deres job end de øvrige medarbejdere” • Finde sammenhænge og blive bedre til at forudsige
Analyse og databehandling • I jeres arbejde med at finde sammenhænge i data skal I ikke lave avancerede statistiske analyser • Intet mere end frekvens- og krydstabeller • I stedet handler det om at bygge et solidt argument op • Sandsynliggøre, at der er tale om en sammenhæng
Analyse og databehandling • Når I leder efter årsagssammenhænge, skal I huske de tre kriterier, der skal være opfyldt: • Tidsrækkefølge, årsag før virkning • Statistisk sammenhæng • Kontrol for tredjevariabel
Analyse og databehandling • Kontrol for tredjevariabel: • Sikre, at det virkelige er den uafhængige variabel, der påvirker den afhængige variabel • Kontrollere, at der ikke er tale om.. • … en spuriøs sammenhæng – en tilfældighed eller en bagvedliggende variabel • … En indirekte eller modereret sammenhæng – en tredje variabel • … Interaktion
Analyse og databehandling • Kontrol for tredjevariabel: • Forskellige mere avancerede statistiske analyser kan kontrollere for tredjevariabel • Der skal I slet ikke bevæge jer ud • I bør dog tænke det ind i jeres forskningsdesign og sikre, at I har mulighed for det – opbygge det gode argument • F.eks. Ved at lave nogle krydstabeller og nedbryde data på flere forskellige baggrundsvariable
Analyse og databehandling • Statistisk sammenhæng: • Værdierne på den afhængige variabel skal ændre sig, når værdierne på den uafhængige variabel ændrer sig • Testes statistisk ved hjælp af forskellige sammenhængsmål
Analyse og databehandling • Statistisk sammenhæng: • I skal ikke ud i statistiske sammenhængsanalyser • For jer vil det handle om at at lave krydstabeller og konstatere, at der er en forskel på fordelingerne • Husk igen også at kontrollere for tredjevariabel!
Inferens • Når man går fra stikprøven til populationen • Man undersøger, hvor sikker man kan være på, at estimatet (værdien i stikprøven) er lig med populationsparametren (Værdien i populationen, som man i virkeligheden er interesseret i) • Man giver et konkret tal for sandsynligheden herfor eller et interval, hvor indenfor parametren med en vis sandsynlighed befinder sig
Inferens • Ikke noget I forventes at arbejde med i opgaven • I skal ikke teste for signifikans eller opstille konfidensintervaller • Nyttigt begreb at forstå, når I generelt præsenteres for undersøgelser og resultater af undersøgelser
Signifikans • En signifikanstest siger noget om sandsynligheden for at en sammenhæng man har fundet i sin stikprøve også findes i populationen. • Man taler om forskellige signifikansniveauer – typisk 5 % • Med et signifikansniveau på 5 % skal sandsynligheden for, at den sammenhæng, vi har fundet i stikprøven også findes i populationen, være større end 95 % • Ellers tør vi ikke tro på, at sammenhængen ikke bare er en tilfældighed i vores stikprøve
Signifikans • Signifikanstesten er en statistisk test, der baserer sig på sandsynlighedsregning • Hvis signifikanstesten viser, at en sammenhæng er signifikant på f.eks. et 5% signifikansniveau • Så vil det sige, at der kun er en 5 % sandsynlighed for at få det resultat, vi har fundet i stikprøven, hvis sammenhængen ikke også findes i populationen.
Signifikans • Signifikanstesten fortæller os altså, hvor sikre, vi kan være på resultaterne af vores undersøgelse • Det er meget sjældent, at de resultater fra undersøgelser, der bliver gengivet i medierne er blevet signifikanstestet. • Så reelt ved man ikke, hvor sikker man kan være på, om den sammenhæng man har fundet, har noget på sig
Konfidensinterval • Er et bånd rundt om det estimat, man har fundet i stikprøven. • Indenfor dette bånd befinder værdien for populationen – ”den sande værdi” sig med en vis sandsynlighed • Hvis man har et signifikansniveau på 5% vil værdien for populationen med 95 % sikkerhed befinde sig i kofidensintervallet
Konfidensinterval • Tænkt eksempel: Hvis man I en stikprøve f.eks. har fundet, at 50,2% af respondenterne angiver at ville stemme på oppositionen, hvis der var valg i morgen, så ligger den sande stemmeandel på oppositionen med 95 % sikkerhed mellem 48,7% og 51,7%
Konfidensinterval • Hænger sammen med den statistiske usikkerhed • Så jo større en stikprøve, jo smallere bliver båndet – konfidensintervallet • Jo større krav man stiller til sandsynligheden for at indfange den sande værdi i intervallet – jo bredere bliver båndet
Inferens • Konfidensinterval: et bånd omkring den værdi, man har fundet i stikprøven • Populationsværdien befinder sig med en vis sandsynlighed indenfor dette bånd
Inferens • I skal ikke lave avancerede statistiske analyser • Sørg i stedet for at opbygge et solidt argument, der kan sandsynliggøre, at jeres resultater har noget på sig • Tjek for tredjevariabel, forhold jer til kvaliteten af jeres stikprøve, undersøgelsesdesignet osv. • Vær opmærksom på begreænsingerne
Opsamling • Inden databehandlingen og analysen – kast et kritisk blik på stikprøven. Er kvaliteten i orden? • Eksplorativ eller hypotesestyret analyse • I kan estimere parametre – andele og gennemsnit • Lede efter årsagssammenhænge • I skal ikke lave statistiske analyser – nøjes med frekvenstabeller og krydstabeller • Sørg i stedet for at opbygge solide argumenter – tjek for tredjevariabel osv. • Signifikanstest og konfidensintervaller er centrale begreber, når man infererer