1 / 27

Management dat: založení a správa datového souboru Jindřich Krejčí

Management sociálních dat a datové archivy Kurz ISS FSV UK. Management dat: založení a správa datového souboru Jindřich Krejčí. Cíle managementu dat. integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele

Download Presentation

Management dat: založení a správa datového souboru Jindřich Krejčí

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Management sociálních dat a datové archivy Kurz ISS FSV UK Management dat: založení a správa datového souboru Jindřich Krejčí

  2. Cíle managementu dat • integrita dat, kvalita dat - přesnost a správnost výzkumu • srozumitelnost pro všechny potenciální uživatele • efektivita výzkumné práce - čas a náklady • autenticita dat - možnost replikace, opravy analýz • zajištění legálních a formálních předpokladů výzkumu • zabezpečení a zachování dat • zpřístupnění dat

  3. Pojmenování datových souborů • systematicky, krátké názvy odkazující na obsah a/nebo vznik • rozlišení sérií, verzí a edicí (viz dále) • konzistentní formát • nezávislost jména na umístění a software • nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... • scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) • když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: • Ant Renamer (http://www.antp.be/software/renamer) • RenameIT (http://sourceforge.net/prpjects/renameit) • Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)

  4. Struktura datového souboru • flat file - obdélníkový datový soubor, datová matice • hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) • relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)

  5. Příklad: SHARE

  6. Who answers what in the CAPI questionnaire? mergeid- unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier,“rr” = respondent identifier within each household hhididentifies the household to which a person belonged when entering the panel hhidWidentifies the household, where “W” refers to the specific wave

  7. Proměnné • variable names, varible labels • řazení a označení dotváří strukturu souboru • vzájemné vztahy mezi proměnnými • návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) • pomocné proměnné pro organizaci a správu souboru • variable names = volací znaky v software (nezačínat číslem, 8 míst...)=> převoditelnost formátu dat • přehlednost prezentace dat • systémy značení • číselný kód (V001, V002...) • kód odkazující na výzkumný nástroj (Q1a, Q1b... • mnemotechnická jména (BIRTH, EDUC...) • variable labels • srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika • formát proměnné (typ proměnné, počet znaků) • možnosti analýzy, velikost souboru

  8. Hodnoty proměnných • naměřené hodnoty / odpovědi / audio / video / vzorky ... • numerické kódování - ve všech stat. softwarech => převoditelnost • někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) • příklad ISCO (Harry) • kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech • standardizace • dokumentace, značení (value labels) • kódování - samostatný proces u složitějších úloh

  9. Doporučení ke kódování • Identifikační proměnné na začátku záznamů - jednoznačnost • Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované • Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde • Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům • Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci • Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů • Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu • Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. • Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma • Přebírání kódovacích struktur z jiných šetření - standardizace

  10. Chybějící hodnoty • Žádná odpověď (No Answer, NA) • Odmítnutí (Refusal) • Neví (Do not Know, DK) • Chyba zpracování (Processing Error) • Nehodí se (Not Applicable/Inapplicable, NAP, INAP) • Chybí přiřazená hodnota (No Match) • Chybí údaj • jednotný systém kódování

  11. ESS 4

  12. Zajištění integrity • vkládání dat - programování software (data-entry, CATI/CAPI) • vývoj technologií a změny koncepce designu • doporučení • nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy • méně kroků - redukce možností vzniku chyb • specializovaný software umožňuje nastavit platné hodnoty a filtry • dvojí vkládání a srovnání výsledků. • provést kontrolu úplnosti záznamů. • provést logickou kontrolu a kontrolu konzistence dat, např.: • kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný), • kontrola nejnižších a nejvyšších hodnot a extrémů, • kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk), • srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.). • řadu kontrol lze provádět automaticky za pomoci počítače • určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou • změny by měly být dokumentovány a původní data obnovitelná

  13. Anonymizace • ochrana osobních údajů • odstranění přímých identifikací - anonymní kódy • malé skupiny, nepřímé identifikace • odstranění • agregace údajů, redukce podrobnosti • geografické a časové informace • ošetření extrémních hodnot

  14. Vážení • Jsou v souboru váhy? Mám je použít? • typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) • jaký je výsledek s váhou a bez váhy? • Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru • Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin • Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace • Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) • Kombinované, celkové váhy

  15. Dokumentace • metadata • porozumění - interpretace • výzkumný tým • ostatní výzkumníci • pravidla, standardy • ESOMAR, WAPOR/AAPOR... • elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu • formát dokumentace • výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze • mezinárodní standard DDI - standardizovaná struktura, XML formát • tři základní úrovně • projekt • databáze • proměnné a případy

  16. Informace o projektu • původ datového souboru • název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) • institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) • abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty • popis a metody sběru dat • popis všech zdrojů, z nichž jsou data získána • časové vymezení sběru dat • časové a geografické pokrytí • cílová populace • jednotky pozorování • popis výběrového designu včetně opory • metody sběru dat • původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) • použitá klasifikační schémata a koncepty • návratnost a další vyhodnocení (např. známé odchylky od populace) • identifikace změn metodiky u časových sérií a longitudiálních výzkumů

  17. Informace o databázi • popis datových souborů • specifikace verze a edice souboru (pokud jich je víc) • struktura souborů • specifikace vztahů a propojení • informace o rozsahu (počet záznamů a proměnných) • informace o formátech a kompatibilitě. • editace a modifikace dat • metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) • anonymizace • transformace a konstrukce odvozených proměnných • vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)

  18. ...informace o databázi • přístup k datům • vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů • katalogizační a citační informace • bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje • odkazy na související materiály a zdroje, pokud je to relevantní

  19. Informace o proměnných a případech • informace o proměnných v souboru • jména proměnných • označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných • k dispozici by mělo být přesné původní znění otázky • frekvence, základní třídění apod. (?) • informace o případech v souboru • specifikace případů, pokud je to relevantní

  20. Verze a edice databáze • správa dat, analýzy => více verzí a edicí => strategie jejich správy • jednoznačná identifikace verzí a edicí, přehled o rozdílech • zajištění autenticity (zabránit neautorizovaným zásahům) • doporučení • stanovit podmínky používání dat a seznámit s nimi uživatele • rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců • zavést jednoznačné a systematické značení verzí a edicí datového souboru • vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích • dokumentovat provedené změny • zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) • stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět • pokud je více kopií stejné verze, kontrolovat jejich shodnost

  21. Zálohování, formáty a média • proces - pravidelné zálohování a obnova • digitální média z principu nespolehlivá • software, instituce atd. procházejí změnami + další rizika • kratší čas - operabilita • formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por) • diakritika => kódování znaků (UTF 8) • delší čas • jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace • PDF/A (archivační verze PDF definovaná ISO) • média • nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození • nejméně dvě různé formy archivace • pravidelné přehrávání na nová média

  22. Děkuji za pozornost a prosím o Vaše otázky

More Related