1 / 34

Databehandling og statistik

Databehandling og statistik. 10.05.2010. Dagsorden. Opsamling fra sidste gang Databehandling og kvalitetssikring af data Analyse – eksplorativ eller hypotesestyret Estimere parametre og finde sammenhænge Inferens – signifikanstest og konfidensintervaller. Sidste gang talte vi om, at….

jenn
Download Presentation

Databehandling og statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Databehandling og statistik 10.05.2010

  2. Dagsorden • Opsamling fra sidste gang • Databehandling og kvalitetssikring af data • Analyse – eksplorativ eller hypotesestyret • Estimere parametre og finde sammenhænge • Inferens – signifikanstest og konfidensintervaller

  3. Sidste gang talte vi om, at… • Indsamling af kvantitativ data • Hvordan gennemfører man en spørgeskema undersøgelse • Vær opmærksom på, at lave et velfungerende og validt spørgeskema, der måler de ting, I gerne vil måle – formuleringer, rækkefølge osv. • Tilrettelæg dataindsamlingen, så I ender med en stikprøve, der er repræsentativ for den population, I gerne vil sige noget om • Forhold jer til kvaliteten af det indsamlede data og vær bevidst om jeres begrænsninger, når I konkluderer

  4. I dag skal vi snakke om… • … hvad I gør, når data er indsamlet. • Hvordan I laver analyser og databehandling • Er skåret end, så vi kan nå det i dag.

  5. Og nu hvor data er samlet ind.. Hvad så? • Inden I starter databehandlingen og analyserne: Kast et kritisk blik på stikprøven. • Er den af en tilfredsstillende kvalitet? • Gør rede for jeres observationer og overvejelser

  6. Er der besvarelser nok i stikprøven? • Har I nået det samlede, ønskede antal besvarelser? • Har I nok besvarelser I hver af de undergrupper, som I gerne vil sige noget om? (mindst 40, men gerne flere) • Husk: Jo større behov for at nedbryde resultaterne – jo større stikprøve skal I bruge

  7. Hvis stikprøven er for lille • Usikkerheden stiger – I bliver mindre sikre på resultaterne • I kan måske ikke udtale jer, om enkelte undergrupper, som I ellers gerne ville sige noget om • Man kan generelt blive bekymret for, om der er systematiske skævheder

  8. Svarprocenten • Hvor stor en andel af dem, man har inviteret til at deltage i undersøgelsen, har besvaret den? • En lav svarprocent skaber bekymring om systematisk frafald • En generel kvalitetsindikator • Bør være mindst 50%

  9. Er stikprøven repræsentativ? • Er stikprøven et ”mini-univers” af den population, I gerne vil sige noget om? • Hvad ved I om populationen? • Har I evt. noget data på populationen, som I kan holde stikprøven op imod? • Er der skævheder i stikprøven?

  10. Er stikprøven repræsentativ? • Og hvis man ikke kender populationsfordelingerne? • Svarprocenten er en god generel kvalitetsindikator • Tænk undersøgelses-designet igennem: har jeg virkeligt tænkt på alt? • Evt. input fra eksperter, der kender populationen. • Ser stikprøven fornuftig ud?

  11. Og hvis stikprøven er for lille… • Vil jo ofte skyldes en lav svarprocent • Har I mulighed for at lave en rykkerunde? • Det er en dårlig løsning bare at sende undersøgelsen ud til flere • Alternativt: tag forbehold i fortolkningerne

  12. Og hvis stikprøven ikke er repræsentativ… • Nogle grupper er overrepræsenterede og andre underrepræsenterede • Hvor slemt er det? • Systematisk frafald • Hvis svarprocenten er lav – rykkerrunde • Ellers må der være noget galt med det undersøgelsesdesign, man bruger • Overvej at skifte taktik • Ellers: tag forbehold i konklusionerne

  13. Efter kvalitetssikringen af stikprøven Databehandlingen og analysearbejdet kan begynde….

  14. Analyse og databehandling • Hvordan vil I arbejde? • Hvilken analysetilgang • Eksplorativt: • Ser, hvad data viser • er der noget interessant? • Teoretisk/hypotesestyret: • Tester hypoteser • Afsæt i teori eller forventninger

  15. Analyse og databehandling • Ofte arbejder man både eksplorativt og hypotesestyret på samme tid. • En ren eksplorativ tilgang kan ende i bevidstløs krydsning af data – husk at have hovedet med • Ellers ender I med at finde en masse spuriøse sammenhænge • Muligheden for at teste eventuelle hypoteser skal dog være tænkt i undersøgelsesdesignet fra starten • Det vil ofte være for sent at komme i tanke om det nu…

  16. Analyse og databehandling • De simpleste analyser har en deskriptiv karakter • Estimere parametre – andele, gennemsnit ol. • ”45 % af de adspurgte er tilfredse med deres job” • ”Den gennemsnitlige anciennitet på arbejdspladsen er 3,5 år” • Osv.

  17. Analyse og databehandling • Skridtet over handler om at afdække sammenhænge og kausaliteter • F.eks. sammenhænge mellem baggrundsvariable og holdningsvariable • ”De ansatte i HR-afdelingen er markant mere tilfredse med deres job end de øvrige medarbejdere” • Finde sammenhænge og blive bedre til at forudsige

  18. Analyse og databehandling • I jeres arbejde med at finde sammenhænge i data skal I ikke lave avancerede statistiske analyser • Intet mere end frekvens- og krydstabeller • I stedet handler det om at bygge et solidt argument op • Sandsynliggøre, at der er tale om en sammenhæng

  19. Analyse og databehandling • Når I leder efter årsagssammenhænge, skal I huske de tre kriterier, der skal være opfyldt: • Tidsrækkefølge, årsag før virkning • Statistisk sammenhæng • Kontrol for tredjevariabel

  20. Analyse og databehandling • Kontrol for tredjevariabel: • Sikre, at det virkelige er den uafhængige variabel, der påvirker den afhængige variabel • Kontrollere, at der ikke er tale om.. • … en spuriøs sammenhæng – en tilfældighed eller en bagvedliggende variabel • … En indirekte eller modereret sammenhæng – en tredje variabel • … Interaktion

  21. Analyse og databehandling • Kontrol for tredjevariabel: • Forskellige mere avancerede statistiske analyser kan kontrollere for tredjevariabel • Der skal I slet ikke bevæge jer ud • I bør dog tænke det ind i jeres forskningsdesign og sikre, at I har mulighed for det – opbygge det gode argument • F.eks. Ved at lave nogle krydstabeller og nedbryde data på flere forskellige baggrundsvariable

  22. Analyse og databehandling • Statistisk sammenhæng: • Værdierne på den afhængige variabel skal ændre sig, når værdierne på den uafhængige variabel ændrer sig • Testes statistisk ved hjælp af forskellige sammenhængsmål

  23. Analyse og databehandling • Statistisk sammenhæng: • I skal ikke ud i statistiske sammenhængsanalyser • For jer vil det handle om at at lave krydstabeller og konstatere, at der er en forskel på fordelingerne • Husk igen også at kontrollere for tredjevariabel!

  24. Inferens • Når man går fra stikprøven til populationen • Man undersøger, hvor sikker man kan være på, at estimatet (værdien i stikprøven) er lig med populationsparametren (Værdien i populationen, som man i virkeligheden er interesseret i) • Man giver et konkret tal for sandsynligheden herfor eller et interval, hvor indenfor parametren med en vis sandsynlighed befinder sig

  25. Inferens • Ikke noget I forventes at arbejde med i opgaven • I skal ikke teste for signifikans eller opstille konfidensintervaller • Nyttigt begreb at forstå, når I generelt præsenteres for undersøgelser og resultater af undersøgelser

  26. Signifikans • En signifikanstest siger noget om sandsynligheden for at en sammenhæng man har fundet i sin stikprøve også findes i populationen. • Man taler om forskellige signifikansniveauer – typisk 5 % • Med et signifikansniveau på 5 % skal sandsynligheden for, at den sammenhæng, vi har fundet i stikprøven også findes i populationen, være større end 95 % • Ellers tør vi ikke tro på, at sammenhængen ikke bare er en tilfældighed i vores stikprøve

  27. Signifikans • Signifikanstesten er en statistisk test, der baserer sig på sandsynlighedsregning • Hvis signifikanstesten viser, at en sammenhæng er signifikant på f.eks. et 5% signifikansniveau • Så vil det sige, at der kun er en 5 % sandsynlighed for at få det resultat, vi har fundet i stikprøven, hvis sammenhængen ikke også findes i populationen.

  28. Signifikans • Signifikanstesten fortæller os altså, hvor sikre, vi kan være på resultaterne af vores undersøgelse • Det er meget sjældent, at de resultater fra undersøgelser, der bliver gengivet i medierne er blevet signifikanstestet. • Så reelt ved man ikke, hvor sikker man kan være på, om den sammenhæng man har fundet, har noget på sig

  29. Konfidensinterval • Er et bånd rundt om det estimat, man har fundet i stikprøven. • Indenfor dette bånd befinder værdien for populationen – ”den sande værdi” sig med en vis sandsynlighed • Hvis man har et signifikansniveau på 5% vil værdien for populationen med 95 % sikkerhed befinde sig i kofidensintervallet

  30. Konfidensinterval • Tænkt eksempel: Hvis man I en stikprøve f.eks. har fundet, at 50,2% af respondenterne angiver at ville stemme på oppositionen, hvis der var valg i morgen, så ligger den sande stemmeandel på oppositionen med 95 % sikkerhed mellem 48,7% og 51,7%

  31. Konfidensinterval • Hænger sammen med den statistiske usikkerhed • Så jo større en stikprøve, jo smallere bliver båndet – konfidensintervallet • Jo større krav man stiller til sandsynligheden for at indfange den sande værdi i intervallet – jo bredere bliver båndet

  32. Inferens • Konfidensinterval: et bånd omkring den værdi, man har fundet i stikprøven • Populationsværdien befinder sig med en vis sandsynlighed indenfor dette bånd

  33. Inferens • I skal ikke lave avancerede statistiske analyser • Sørg i stedet for at opbygge et solidt argument, der kan sandsynliggøre, at jeres resultater har noget på sig • Tjek for tredjevariabel, forhold jer til kvaliteten af jeres stikprøve, undersøgelsesdesignet osv. • Vær opmærksom på begreænsingerne

  34. Opsamling • Inden databehandlingen og analysen – kast et kritisk blik på stikprøven. Er kvaliteten i orden? • Eksplorativ eller hypotesestyret analyse • I kan estimere parametre – andele og gennemsnit • Lede efter årsagssammenhænge • I skal ikke lave statistiske analyser – nøjes med frekvenstabeller og krydstabeller • Sørg i stedet for at opbygge solide argumenter – tjek for tredjevariabel osv. • Signifikanstest og konfidensintervaller er centrale begreber, når man infererer

More Related