60 likes | 173 Views
Management sociálních dat a datové archivy Kurz ISS FSV UK. Reprezentativita: chyba pokrytí populace (coverage error) Jindřich Krejčí. Chyba pokrytí populace. Cílová populace. Populace opory. nežádoucí jednotky. populace zachycená ve výzkumu. jednotky výběru
E N D
Management sociálních dat a datové archivy Kurz ISS FSV UK Reprezentativita:chyba pokrytí populace (coverage error) Jindřich Krejčí
Chyba pokrytí populace Cílová populace Populace opory nežádoucí jednotky populace zachycená ve výzkumu • jednotky výběru • cílová populace:populace, ke které vztahujeme dokazování • populace šetření: populace, ke které se výzkum vztahuje reálně (nezahrnuje některé skupiny; např. určíme, že nezkoumáme institucionální populace, bezdomovce...) • opora výběru: seznam(-y) nebo sada materiálů a procedur (např. mapa, kartotéka...) použitých k identifikaci jednotek cílové populace • populace opory: populace skutečně zachycená v opoře • nezachycené jednotky, nežádoucí jednotky, duplikace, klastry • DOSTUPNOST VHODNÉ OPORY ! nezahrnutá část populace
příklady opory • telefonní seznam • seznam oblastí, seznam adres domácností, seznam členů domácnosti -> komplexní design výběru • chyby pokrytí na všech úrovních • systematické chyby (problém mladých, znevýhodněné skupiny...) • pravidlo rezidence de facto/de jure • nežádoucí jednotky • identifikace až při pokusu o kontakt: problém s výběrem - odhad a navýšení výběru?; snížení efektivity • jednotky, u nichž nevíme, zda do výzkumu patří • klastry - podvýběr • RDD - random digit dialing • výběr v průběhu sběru dat (počítač, Kish grid, datum narození...) • kompenzační váhy (klastry, duplicity - identifikace v průběhu sběru dat)
obecná populace v ČR - domácnosti a jednotlivci • adresy domácností ČSÚ, databáze adres budov, výběr oblastí - soupis domácností, databáze adres plátců (INKASO), náhodná procházka • zákazníci, zaměstnanci, členové organizací • seznamy (aktuálnost; různé charakteristiky - prozkoumat, zjistit kontext), ochrana osobních údajů, někdy problém vymezit populaci (zaměstnání na DPČ, faktury...) • firmy, organizace • různé velikosti, různé struktury, problém geografické lokace, formální/ administrativní vs reálný stav, dynamický vývoj • události (narození, zakoup. něčeho, výskyt něčeho, nezaměstnanost, kriminální čin...) • různé opory (časová škála, seznam jiných jednotek - osob,.. př. time use survey) • specifické populace • špatně identifikovatelné populace, malé, řídké, rozptýlené • chyba pokrytí populace: rozdíl mezi hodnotou cílové populace a populace opory
Redukce počtu chybějících jednotek • kombinace více opor v jednom kroku • různé výb. pravděpodobnosti, konstrukce design. vah • překryv opor (výběr tazatelem v terénu / zahrnutí všech vybraných jedn. - různé pravděpodobnosti / zpřesnění odhadů pomocí překryvu), • Př. kombinace RDD a oblast/soupis dom. Ptel.. = PRDD + POBL - PRDD * POBLPnon-tel. = POBL • Př. zpřesnění (RDD domácnosti a OBL domácnosti bez tel. - soubor / OBL domácnosti s tel. - zjistí se podíl a stanoví se váhy pro soubor) • napůl otevřený interval (half-open interval) • uspořádaný seznam s chybějícími jednotkami (např. neaktuální) • prozkoumá se oblast od vybrané jednotky k nejbližší další jednotce v seznamu • zahrnou se všechny jednotky a přiřadí se jim pravděpodobnost vybrané jednotky / provede se podvýběr / nové jednotky konstituují nové stratum (překvapení) a v něm se samostatně provede výběr
Redukce počtu chybějících jednotek II. • vícenásobný výběr (multiplicity sampling) • obdoba snow-ball • z opory se vyberou jednotky, s každou jednotkou se vybere celá síť jednotek • nutnost přesné definice vymezení sítě, nesmí se překrývat • váhy podle velikosti sítě • nepřesnosti při stanovení sítě (respondenti ji často přesně neurčí)