320 likes | 445 Views
Hvordan bliver vi bedre til at måle statistikkens kvalitet?. 29. september 2008. Tre udsagn. Tal er tyranni Man kan kun have tillid til statistik man selv har manipuleret (Churchill) Ikke alt der tæller kan tælles – og ikke at der kan tælles tæller (Einstein). Varedeklarationer i pressen.
E N D
Hvordan bliver vi bedretil at måle statistikkens kvalitet? 29. september 2008
Tre udsagn • Tal er tyranni • Man kan kun have tillid til statistik man selv har manipuleret (Churchill) • Ikke alt der tæller kan tælles – og ikke at der kan tælles tæller (Einstein)
Tal er tyranni • Hvad er forskellen på: • ”Varedeklarationerne kan gøres bedre” og kun hver femte dansker kan tyde dem • ”Nogle få genstande for meget” og en promille på 1,37 • ”Kødpriserne stiger” og de er steget 3,78% siden nytår Eksakte tal har en selvbekræftende rigtighed og autoritet, der ikke stilles spørgsmålstegn ved. Danmarks Statistik har en stærk troværdighed, og mange mener at statistik enten er helt rigtig eller forkert. Virkeligheden mere nuanceret. Ethvert (demokratisk) samfund har brug for statistik
Kun tillid til statistik man selv har manipuleret • Statistik er bearbejdning af informationer baseret på på metoder og valg - informationerne kan have forskellig kvalitet - metoderne kan være fagligt forankret eller subjektive - valgene kan forbedre eller forværre • Hvis man kender dem kan man bruge statistikken • Producentens ansvar
Ikke alt der tæller kan tælles • Det gælder også mål for kvaliteten af statistik • Tre ting kan gå helt galt: - hvordan man måler (spørgeskemaet) - mangelfuld udvalgsramme (population) og udvælgelse - bortfald og dataindsamlingen og selvfølgelig forkerte metoder/principper • Noget er svært at måle med tal, fx kvaliteten og betydningen af spørgeskemaet, udvalgsrammen og bortfaldet – og selvfølgelig forkerte metoder/principper • Ingen statistik er stærkere end sit svageste led
Disposition • Hvorfor skal kvalitet måles? • Hvilke redskaber findes der? • Hvordan kan de bruges?
Hvordan bliver kvalitetsmål anvendelige? • Flere andre lande har store manualer for kvalitet, fx ONS, Finland og Canada • EUROSTAT og internationale organisationer arbejder med fælles kvalitetsmål – OG kontrol • Arbejdsgrupper i DST om delemner: Stikprøver, registre, indeks eller sæsonkorrektion • Overordnet mål: • Kan vi finde en vinkel der giver os et anvendeligt mål der reelt beskriver statistikkens og sikkerhed uden det ”drukner i store rapporter og kontrol” - og sætter fokus på brugerne, ressourcer og forbedringer?
Hvorfor skal kvalitet måles? • Brugernes nytteværdi af statistikken • Vores interesse i korrekt anvendelse • Mere målrettet fokus på kvalitet - og derved bedre kvalitet • Optimal anvendelse egne ressourcer • Omverden ved hvad de får for pengene
Hvilke redskaber findes der? • Indikatorer forkvaliteten af outputtet • Standarder for produktionen • Kvalitative analyser, test eller beskrivelser
2 - Hvilke redskaber findes der? • Svage indikatorer (I1), fx andel af fejl i en fejlsøgning - kan kun sammenlignes inden for tællingen • Stærke indikatorer (I2), fx bortfaldet eller uoplyste - kan sammenlignes over tid for en konkret tælling og mellem tællinger af samme type • Universelle indikatorer (I3), fx varianskoefficienten i en stikprøve - kan sammenlignes over tid, mellem tællinger og lande.
Input og output • Grundlæggende kvalitet i inputtet Eksterne forhold, fx forskerbeskyttelse i CPR eller selvrapportering i CVR Ressourcer, fx stikprøvestørrelsen Målingen, fx indholdet i registeret eller kvaliteten spørgsmålene i spørgeskemaet Dataindsamlingen, fx bortfald • Endelige kvalitet i outputtet – det relevante mål Efter bearbejdning, fx fejlsøgning, sæsonkorrektion eller opregning Analyser, der dokumenterer problemer, metoder og effekt • Kompetencer påvirker begge dele
Fire kvalitetsniveauer Fire kvalitetsniveauer • A - Meget høj kvalitet • B - Høj kvalitet • C - Rimelig kvalitet • D - Usikker kvalitet De to højeste niveauer kræver tilgængelig dokumentation
2- Hvordan kan fire mål bruges? • Den basale kvalitet af en indikatorer kan hæves: • analyser der kvalitativt og kvantitativt beskriver og håndtere et problem • analyser der dokumenterer en effekt Fx kan bortfaldet i en stikprøveundersøgelse være så stort, at den basale kvalitet er Usikker eller Rimelig, men bortfaldsanalyser og opregningen kan hæve kvaliteten – hvis de er dokumenteret og tilgængelige
3 - Hvordan kan de fire mål bruges? • Generelle fælles mål for - fx stikprøveusikkerhed - opfyldelsen af forudsætninger for sæsonkorrektion - andelen af uoplyste - graden af entydig flet af registre • Konkrete defineret for den konkrete statistik, fx • Prisindeks • Fejlsøgning • Specifikationsgrad af kommunale budgetposter
Hvordan kommer vi i gang? • Første trin en afprøvning på udvalgte statistiker • Først bruges de generelle, der relevante • Derefter suppleres evt. med konkrete, der er relevante • Man står selv inden for tilgængelig dokumentation overfor eksterne brugere eller interne brugere, hvis man vurdere høj eller meget høj kvalitet • Kontorchefen godkender den endelige vurdering
Eksempel 1 Uoplyste værdier for hovedvariabler (I2) + Korrektion (imputering, vægtning) for uoplyst, der inddrager korreleret registerinformation kan flytte en grad. + Dokumenteret reduktion af uoplyst bias endnu en grad Usikker kvalitet: Over 5 % af enhederne Rimelig kvalitet: Under 5 % af enhederne Høj kvalitet: Under 3 % af enhederne Meget høj kvalitet: Under 1 % af enhederne
Eksempel 2 Populationsudvikling over tid (K) Usikker kvalitet: Ingen analyser over tid Rimelig kvalitet: Beskrivende macroanalyser af variabler over tid Høj kvalitet: Beskrivende microanalyser af enheder over tid Meget høj kvalitet: Microanalyser af enheder over tid dokumenteret i en kvalitetsrapport med vurdering af betydningen for ændringer over tid
Eksempel 3 Revisioner samt foreløbige og endelige tal (I2) + Analyse, der beskriver størrelsen og retningen af forskellen mellem første og endelig publicering Usikker kvalitet: Over 2 % forskel Rimelig kvalitet: Under 2 % forskel Høj kvalitet: Under 1 % forskel Meget høj kvalitet: Under ½ % forskel
Eksempel 4 Kontrol/fejlsøgning af registeret inden det overdrages til DST (S) + Analyse, der beskriver kvaliteten Usikker kvalitet: Ikke systematisk fejlsøgning Rimelig kvalitet: Stikprøvebaseret fejlsøgning Høj kvalitet: Fejlsøgning af mindst halvdelen af alle enheder i praksis Meget høj kvalitet: Fejlsøgning af ”alle” enheder i praksis
Eksempel 5 Sammenlignelighed over tid uden databrud (I2) + Korrektion for eller analyser af betydningen af databruddet + Dokumenteret stor reduktion af bias ved databruddet endnu en grad Usikker kvalitet: Kan ikke sammenlignes en periode tilbage Rimelig kvalitet: Mindst en periode Høj kvalitet: Over 5 år Meget høj kvalitet: Over 10 år
Eksempel 6 Alder på stikprøve (I2) Usikker kvalitet: Opdateret mere end to år siden Rimelig kvalitet: Der trækkes en ny stikprøve hvert andet år Høj kvalitet: Der trækkes en ny stikprøve hvert år Meget høj kvalitet: Der trækkes en ny stikprøve ved hver tælling
Eksempel 7 Cut-off (I2) (i erhvervsundersøgelser) + Korrektion (vægtning, imputering) for cut-off, der inddrager korreleret registerinformation + Dokumenteret stor reduktion af cut-off bias endnu en grad Usikker kvalitet: Over 20 % Rimelig kvalitet: Under 20 % Høj kvalitet: Under 10 % Meget høj kvalitet: Under 5 %
Eksempel 8 Stikprøveusikkerhed for hovedvariabler (I3) Hvis fokus er på ændringer også usikkerheden af ændringen Usikker kvalitet: Stikprøvefejl på over 3 % på totaler hhv. 15 % for undergrupper Rimelig kvalitet: Under 3%/15% Høj kvalitet: Under 2/10% Meget høj kvalitet: Under 1%/5%
Eksempel 9 Bortfald (I2) + Korrektion for bortfald, der inddrager korreleret registerinformation + Dokumenteret stor reduktion af bortfaldsbias endnu en grad Usikker kvalitet: Over 40% af de udvalgte enheder Rimelig kvalitet: Under 40% af de udvalgte enheder Høj kvalitet: Under 20% af de udvalgte enheder Meget høj kvalitet: Under 5% af de udvalgte enheder
Eksempel 10 Kvaliteten af opregning(K) Usikker kvalitet: Ikke baseret på udvalgssandsynlighederne på udtrækstidspunktet (ikke repræsentativ) Rimelig kvalitet: Simpel opregning for udvalgssandsynligheder ved udtrækstidspunktet Høj kvalitet: Registerinformation inddrages som hjælpeinformation, men effekten er ikke dokumenteret Meget høj kvalitet: Registerinformation inddrages som hjælpeinformation og effekten er dokumenteret
Eksempel 11 – et eksakt fra statistikkontoret Indeks (I2) Statistikkontoret fastlægger niveauer for dækning (xx) og antal indberetninger (yy), der er relevant for at belyse sikkerheden af både aggregerede indeks og delindeks. Fx på baggrund af EU krav eller målsætningen for suppleringen med nye indberetninger. Usikker kvalitet: Under 80 % af alle offentliggjorte indeks opfylder kravet Rimelig kvalitet: Over 80% opfylder kravet Høj kvalitet: Over 90% opfylder kravet Meget høj kvalitet: Over 95% opfylder kravet
Eksempel 12 – et eksakt fra statistikkontoret Specifikationsgrad i offentlige budgetter Steget eller faldet, måske opdelt i intervaller
Samlet vurdering • Sjældent højere end det svageste led - og aldrig højere end det/de vigtigste led - fx hæves kvaliteten ikke ved at øge stikprøvestørrelsen, hvis det største problem er bortfaldet eller underrapportering
Samlet vurdering 2 • Samlet vurdering af kvaliteten - statistikkens smertegrænse Fx at ændringer på op til 1 % kan skyldes statistikkens usikkerhed. Samt om man generelt undervurderer eller overvurderer udviklingen. • Samlet vurdering op forrest i varedeklarationen
Samlet vurdering 3 • Når brugerne ved hvordan statistikken er blevet ”manipuleret” har de mulighed for at vurdere dens anvendelighed • Statistikproducenten har ansvaret for at fortælle hvor langt den kan fortolkes og ikke dække sig bag tallenes ”tyranni” • Hvis man ikke er åben om sin kvalitet og/eller ikke kan måle og beskrive den - er alt lige godt/dårligt og man kan jo så lige så godt vælge den billigste datafangst - og kan ikke begrunde ønsket om flere ressourcer • Når producenten bliver mere bevist om sit svageste punkt har man mulighed for at sætte ind hvor problemet er størst
En stadig proces • Kvalitet er svært at måle • og det er umuligt hvis man ikke prøver • Måleredskabet skal løbende forbedres • første versionen bliver aldrig perfekt • første fase i 2008 • de vigtigste derudover i 2009 Tak for ordet