270 likes | 391 Views
Management sociálních dat a datové archivy Kurz ISS FSV UK. Management dat: založení a správa datového souboru Jindřich Krejčí. Cíle managementu dat. integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele
E N D
Management sociálních dat a datové archivy Kurz ISS FSV UK Management dat: založení a správa datového souboru Jindřich Krejčí
Cíle managementu dat • integrita dat, kvalita dat - přesnost a správnost výzkumu • srozumitelnost pro všechny potenciální uživatele • efektivita výzkumné práce - čas a náklady • autenticita dat - možnost replikace, opravy analýz • zajištění legálních a formálních předpokladů výzkumu • zabezpečení a zachování dat • zpřístupnění dat
Pojmenování datových souborů • systematicky, krátké názvy odkazující na obsah a/nebo vznik • rozlišení sérií, verzí a edicí (viz dále) • konzistentní formát • nezávislost jména na umístění a software • nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... • scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) • když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: • Ant Renamer (http://www.antp.be/software/renamer) • RenameIT (http://sourceforge.net/prpjects/renameit) • Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)
Struktura datového souboru • flat file - obdélníkový datový soubor, datová matice • hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) • relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)
Who answers what in the CAPI questionnaire? mergeid- unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier,“rr” = respondent identifier within each household hhididentifies the household to which a person belonged when entering the panel hhidWidentifies the household, where “W” refers to the specific wave
Proměnné • variable names, varible labels • řazení a označení dotváří strukturu souboru • vzájemné vztahy mezi proměnnými • návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) • pomocné proměnné pro organizaci a správu souboru • variable names = volací znaky v software (nezačínat číslem, 8 míst...)=> převoditelnost formátu dat • přehlednost prezentace dat • systémy značení • číselný kód (V001, V002...) • kód odkazující na výzkumný nástroj (Q1a, Q1b... • mnemotechnická jména (BIRTH, EDUC...) • variable labels • srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika • formát proměnné (typ proměnné, počet znaků) • možnosti analýzy, velikost souboru
Hodnoty proměnných • naměřené hodnoty / odpovědi / audio / video / vzorky ... • numerické kódování - ve všech stat. softwarech => převoditelnost • někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) • příklad ISCO (Harry) • kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech • standardizace • dokumentace, značení (value labels) • kódování - samostatný proces u složitějších úloh
Doporučení ke kódování • Identifikační proměnné na začátku záznamů - jednoznačnost • Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované • Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde • Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům • Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci • Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů • Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu • Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. • Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma • Přebírání kódovacích struktur z jiných šetření - standardizace
Chybějící hodnoty • Žádná odpověď (No Answer, NA) • Odmítnutí (Refusal) • Neví (Do not Know, DK) • Chyba zpracování (Processing Error) • Nehodí se (Not Applicable/Inapplicable, NAP, INAP) • Chybí přiřazená hodnota (No Match) • Chybí údaj • jednotný systém kódování
Zajištění integrity • vkládání dat - programování software (data-entry, CATI/CAPI) • vývoj technologií a změny koncepce designu • doporučení • nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy • méně kroků - redukce možností vzniku chyb • specializovaný software umožňuje nastavit platné hodnoty a filtry • dvojí vkládání a srovnání výsledků. • provést kontrolu úplnosti záznamů. • provést logickou kontrolu a kontrolu konzistence dat, např.: • kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný), • kontrola nejnižších a nejvyšších hodnot a extrémů, • kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk), • srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.). • řadu kontrol lze provádět automaticky za pomoci počítače • určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou • změny by měly být dokumentovány a původní data obnovitelná
Anonymizace • ochrana osobních údajů • odstranění přímých identifikací - anonymní kódy • malé skupiny, nepřímé identifikace • odstranění • agregace údajů, redukce podrobnosti • geografické a časové informace • ošetření extrémních hodnot
Vážení • Jsou v souboru váhy? Mám je použít? • typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) • jaký je výsledek s váhou a bez váhy? • Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru • Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin • Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace • Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) • Kombinované, celkové váhy
Dokumentace • metadata • porozumění - interpretace • výzkumný tým • ostatní výzkumníci • pravidla, standardy • ESOMAR, WAPOR/AAPOR... • elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu • formát dokumentace • výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze • mezinárodní standard DDI - standardizovaná struktura, XML formát • tři základní úrovně • projekt • databáze • proměnné a případy
Informace o projektu • původ datového souboru • název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) • institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) • abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty • popis a metody sběru dat • popis všech zdrojů, z nichž jsou data získána • časové vymezení sběru dat • časové a geografické pokrytí • cílová populace • jednotky pozorování • popis výběrového designu včetně opory • metody sběru dat • původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) • použitá klasifikační schémata a koncepty • návratnost a další vyhodnocení (např. známé odchylky od populace) • identifikace změn metodiky u časových sérií a longitudiálních výzkumů
Informace o databázi • popis datových souborů • specifikace verze a edice souboru (pokud jich je víc) • struktura souborů • specifikace vztahů a propojení • informace o rozsahu (počet záznamů a proměnných) • informace o formátech a kompatibilitě. • editace a modifikace dat • metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) • anonymizace • transformace a konstrukce odvozených proměnných • vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)
...informace o databázi • přístup k datům • vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů • katalogizační a citační informace • bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje • odkazy na související materiály a zdroje, pokud je to relevantní
Informace o proměnných a případech • informace o proměnných v souboru • jména proměnných • označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných • k dispozici by mělo být přesné původní znění otázky • frekvence, základní třídění apod. (?) • informace o případech v souboru • specifikace případů, pokud je to relevantní
Verze a edice databáze • správa dat, analýzy => více verzí a edicí => strategie jejich správy • jednoznačná identifikace verzí a edicí, přehled o rozdílech • zajištění autenticity (zabránit neautorizovaným zásahům) • doporučení • stanovit podmínky používání dat a seznámit s nimi uživatele • rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců • zavést jednoznačné a systematické značení verzí a edicí datového souboru • vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích • dokumentovat provedené změny • zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) • stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět • pokud je více kopií stejné verze, kontrolovat jejich shodnost
Zálohování, formáty a média • proces - pravidelné zálohování a obnova • digitální média z principu nespolehlivá • software, instituce atd. procházejí změnami + další rizika • kratší čas - operabilita • formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por) • diakritika => kódování znaků (UTF 8) • delší čas • jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace • PDF/A (archivační verze PDF definovaná ISO) • média • nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození • nejméně dvě různé formy archivace • pravidelné přehrávání na nová média