Representativiteit

Representativiteit Fannie Cobben Afdeling Methodologie Voorburg

In deze presentatie… • Fouten in steekproeven • Representativiteit; waarom en wat? • De R-indicator • Stellingen

Totale fout Steekproef fout Schattings fout Selectie fout Niet-steekproef fout Observatie fout Over-dekkings fout Meetfout Verwerkings fout Niet-observatie fout Onder-dekkings fout Non-respons fout Fouten in enquêtes

Representativiteit; waarom? • Groves (1989): • ‘Nonresponse rates … are often used mistakenly as a measure of quality of the survey statistics’ • Stoop (2004): • ‘Single-mindedly focussing on response rates should be discouraged’

Representativiteit; waarom? • Meer respons niet noodzakelijk beter; bijvoorbeeld: • Behoefte aan andere kwaliteitsmaat voor de respons op enquêtes!

Representativiteit; wat? • Stoop (2005): • Representatieve steekproeven bestaan niet Schnell (1997): • ‘Representative sampling’ is een onmeetbaar, niet-wetenschappelijk begrip, zonder toegevoegde waarde • Kruskal en Mosteller (1979): • 9 verschillende definities van representativiteit • Aanbeveling: gebruik het woord ‘representatief’ niet, maar maak duidelijk wat je ermee bedoelt

De R-indicator • R: Representativiteit • Kwaliteitsindicator voor behaalde respons op enquête anders dan de hoogte van de respons • Gedefinieerd m.b.t. een set achtergrondkenmerken • Ligt tussen 0 (niet representatief) en 1 (totale representativiteit) • Meet de afwijking van de samenstelling van de respons t.o.v. de samenstelling van de steekproef

De R-indicator • Zwakke definitie van representativiteit: • De respons is representatief voor de steekproef m.b.t. een aantal vooraf gekozen variabelen X wanneer de verdeling van X in de respons niet verschilt van de verdeling van X in de steekproef. • We bepalen de R-indicator door te kijken naar de variantie van de individuele respons kansen.

De R-indicator • Respons kansen:

De R-indicator Geschaalde variantie van respons kansen in de populatie Geschatte variantie van de respons kansen Geschatte variantie van de geschatte respons kansen

De pilot Informele Economie Steekproef n = 4001 CAPI n = 2000 Web/papier n = 2001 Respons n = 1133 Non-respons n = 867 Respons n = 667 Non-respons n = 1324 geen CATI n = 644 Non-respons n = 680 Respons n = 303 Non-respons n = 341

De pilot Informele Economie

Toepassing R-indicator • Onderscheid drie groepen: CAPI; Web/papier; Web/papier + CATI • Representativiteit van de verschillende groepen m.b.t. de volgende vier achtergond kenmerken:

Toepassing R-indicator

Conclusies • Verrassend resultaat: R-indicator Web/papier is significant hoger dan van de CAPI- en de Web/papier aangevuld met CATI groep ondanks lagere respons • Representativiteit naar herkomst, leeftijd, type huishouden en stedelijkheid het hoogst voor deze groep • Maximale RMSE Web/papier niet veel hoger • Telefonisch herbenaderen heeft representativiteit van de respons verslechterd

Stellingen • Een enquête met meer dan 100.000 respondenten is representatief. • Enquêtes met een respons onder 75% mogen niet gepubliceerd worden.

Representativiteit

Representativiteit

Presentation Transcript

Diversiteitmanagement bij de Belastingdienst