490 likes | 600 Views
Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilsk á 1, 110 00 Praha 1, Česká republika ; http://archiv.soc.cas.cz. Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR. Úvod do m anagementu dat Jindřich Krejčí
E N D
Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR Úvod do managementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA jindrich.krejci@soc.cas.cz
sdílení datdata a koncepce výzkumumanagement dat v průběhu řešení projektu
Literatura • Humprey, Ch. 2006. e-Science and the Life Cycle of Research. http://datalib.library.ualberta.ca/~humphrey/lifecycle-science060308.doc • ICPSR. 2012. Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle. 5-th Edition. Ann Arbor:ICPSR http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf • Eynden, V., L. Corti, M. Woolard, L. Bishop, L. Horton. 2011. Managing and Sharing Data. Colchester: UK Data Archive (UKDA). http://www.data-archive.ac.uk/media/2894/managingsharing.pdf • Sekce Management dat na Webu ČSDAhttp://archiv.soc.cas.cz/articles/cz/95/MANAGEMENT-DAT.html • Sekce Sharing data na Webu CESSDAhttp://www.cessda.org/sharing/
Krejčí, J., Y. Leontiyeva (eds.). 2012. Praha: SLON (v tisku). • I. MANAGEMENT DAT VE VÝZKUMNÉM PROJEKTU A ARCHIVACE DAT • Koncepce správy dat a výzkumný projekt (Krejčí) • Založení a správa datového souboru v průběhu výzkumného projektu (Krejčí) • Standardy dokumentace a archivace dat (Krejčí a Vávra) • Sociálněvědní datové archivy: jejich úloha, služby a nástroje (Vávra a Čížek) • Standardizace proměnných v sociálněvědním výzkumu (Vávra a Leontiyeva) • Mezinárodní klasifikace vzdělání a problémy při aplikaci (Soukup) • Měření sociálního statusu a sociálních tříd na základě povolání (Šafr a Holý) • II. ZDROJE DAT PRO SOCIÁLNĚVĚDNÍ VÝZKUM • Mezinárodní sociálněvědní komparativní výzkum a ČR (Krejčí, Chylíková) • Datová základna české sociologie (Čížek) • Data z výzkumů volebního chování v České republice (Lyons) • Data z komparativních politologických šetření (Lyons) • Šetření ČSÚ a statistiky trhu práce (Mysíková) • Přehled výzkumů o rodině (Hamplová) • Mezinárodní výzkumy v oblasti vzdělávání (Soukup) • Statistiky a výzkumy imigrantů aneb Jak srovnávat nesrovnatelné (Leontiyeva, Chytil) • Výzkumy věnující se podobám religiozity v České republice po roce 1989 (Váně) • Výzkum kriminality (Podaná)
Coming soon • Lyons, P. 2012. Theory, Data and Analysis. Data Resources for the Study of Politics in the Czech Republic. Praha: SOÚ. (In Print) • Theories of Political Attitudes and Public Opinion • Origins and Nature of Political Attitude Surveying • Election Survey Research • Comparative Survey Research • Elite Survey Research • Expert and Manifesto Data Research • Interpretation of Political Survey Data • Conceptualising Survey Data and Interpretation of Questionnaire Responses
Data • nejnižší úroveň abstrakce, z níž je odvozeno poznání • mnoho druhů dat (různé terminologie) • pouze digitální data / digitální i analogová data a materiály • pořízeny za účelem analýzy k vytváření a validizaci původních výzkumných výsledků • v určitém kontextu data, v jiném to nejsou data • účely využití se mohou v průběhu života dat měnit • primární data vs. odvozená data (různé chápání - datové matice, kódování inerview jako sekundární); primární vs. sekundární analýza
Sdílení dat • dopad na proměnu výzkumného prostředí • velké množství dat • nové typy dat • snadná dostupnost přes internet • význam sekundární analýzy • význam spolupráce ve výzkumu • sdílení dat ó management dat • při přípravě a vytváření databáze je třeba počítat se zveřejněním, sdílením a sekundární analýzou
Otevřený přístup k výzkumným datům • “otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu.”(OECD Principles and Guidelines for Accessto Research Data ... http://www.oecd.org/dataoecd/9/61/38500813.pdf) • pouze výzkumná data vzniklá z veřejných fondů za účelem veřejně přístupného vědeckého výzkumu • omezení • ochrana soukromí osob a osobních údajů • ochrana obchodních tajemství a duševního vlastnictví • zajištění národní bezpečnosti • ochrana ohrožených druhů • nenarušení právních jednání (sub judice) • ošetření autorských práv • technické bariéry - chybějící infrastruktura...
ICPSR - fáze managementu dat Zdroj: ICPSR 2009
Data management a projekt výzkumu • využití existujících databází pro sekundární analýzu • příprava vlastních výzkumných nástrojů • dotazníky z dokumentace dat • využití existujících dat při ověřování • zajištění formálních a legálních předpokladů pořízení dat a práce s daty • design správy dat; pořádek -> usnadnění analýzy, předcházení chybám
Review datových zdrojů při psaní projektu • Existují data, která mohou odpovědět na naše výzkumné otázky? • Je možné srovnání s existujícími daty? • Pokud ano, jsou tato data dostupná a za jakých podmínek? • Jsou tato data dostatečně srozumitelná, komplementární a kvalitní? • Jaká data pro zodpovězení našich otázek postrádáme? • Pokud jsou dostupná srovnatelná data, je potřeba záměry srovnávání zohlednit v našich metodikách? • Byly již dříve realizovány podobné výzkumné záměry či metodické postupy nebo využity relevantní výzkumné nástroje? • Pokud ano, je k nim dostupná nějaká dokumentace? • Je možné tuto dokumentaci využít při koncipování našeho výzkumu?
Etika • etické kodexy a normy (např. WAPOR, ESOMAR, ISO 20252:2006...) • respondenty je třeba chránit před škodlivými dopady výzkumu i po skončení terénu - tj. při archivaci, zpřístupnění a sekundárním používání dat - informace individuálního charakteru jsou důvěrné; zvláště citlivé údaje • respondenti jsou svéprávní, mají právo znát účel a způsob využití jimi poskytnutých informací a rozhodovat o možnostech jejich využití - tato rozhodnutí je pak nezbytné respektovat. • vždy je třeba zajistit adekvátní využití získaných informací v souladu se stanoveným účelem - proto, aby úsilí respondentů nevyšlo vniveč; data pořízená z veřejných zdrojů je třeba maximální využít (-> sdílení dat)
Ochrana osobních údajů • Zákon č. 101/2000 Sb. • přímé, nepřímé identifikace • osobní údaje, citlivé údaje • informovaný souhlas respondenta • registrace u Úřadu na ochranu osobních údajů • projekt výzkumu • bude potřeba informovaný souhlas respondentů? • pokud ano, v jakém rozsahu? • budeme data anonymizovat? • Úřad pro ochranu osobních údajů (ÚOOÚ), http://www.uoou.cz • MEDARD, http://medard.soc.cas.cz/
Informovaný souhlas respondenta • participace dobrovolně a se znalostí a bez nepříznivých důsledků • podrobné informace, jednoznačné k čemu se souhlas váže • na základě přímého jednání • ze zákona: • v jakém rozsahu je poskytován • komu a k jakému účelu • na jaké období • kdo jej poskytuje • šetření: • účel výzkumu • co participace představuje • k čemu je to dobré, jaká jsou rizika • možnost odmítnout • specifikace použití dat • způsob zajištění důvěrnosti • uchování dat • kdo, jak a do kdy bude mít přístup k datům
Autorská práva • ochrana duševního vlastnictví (IPR) • Zákon 121/2000 Sb. • databáze • uspořádání, způsob výběru... - autorské dílo souborné • už v době vzniku (nemusí být označeno (c)) • ochrana před ztrátou příjmu a morální újmou způsobenou neautorizovaným šířením • ochraně podléhá dílo, nikoliv fakta v něm uvedená • např. u hloubkového rozhovoru je držitelem práv na záznam výzkumník, ale k jednotlivým výrokům informant -> svolení • práva jsou osobnostní - nepřenosná (právo osobovat si autorství,změny, dohled nad plněním povinností ) a majetková (rozmnožování, zveřejňování, vystavování, půjčování, zpřístupnění) • postoupení licenční smlouvou (užití omezené/neomezené, jednotlivé/veškeré, výhradní/nevýhradní)
...autorská práva • lze citovat výňatky nebo celá drobná díla v odůvodněné míře pro účely kritiky, recenze, vědecké či odborné práce • lze využít pro výukové, ilustrační účely (uvádět autora, název a pramen) • držiteli autorských práv jsou všichni spoluautoři - tedy členové výzkumného týmu, nikoliv pouze hlavní řešitel projektu • nikoliv pouze učitel, ale také všichni studenti (ale škola má právo na uzavření licenční smlouvy o užití školního díla) • porady, technické a administr. či pomocné práce nevedou k autorství • činnosti dané pracovní smlouvou=>zaměstnavatel vykonává svým jménem autorova majetková práva k dílu • studenti nejsou zaměstnanci univerzity, tj. majetková práva kompletně na univerzitu nepřecházejí • akademické instituce majetková práva někdy přenechávají svým zaměstnancům • licence typu Creative Commons (tvůrčí společenství)
Plán managementu dat • systematický plán, jak budou data vytvořena a jak s nimi bude zacházeno během výzkumu (které kroky je třeba realizovat v jednotlivých fázích) i po jeho skončení • ujasnění východisek výzkumu • formalizovaný dokument pro grantovou agenturu • vzory dostupné na Webu
Rozpočet projektu - co nezapomenout • získání informovaného souhlasu • anonymizace • zabezpečení a přístup k datům • digitalizace, transkripce (např. přepis rozhovorů) • formátování a správa souborů • popis dat a kódování • čištění • popis kontextu dat • dokumentace (zjišťování dokumentace v průběhu procesu nebo dodatečně) • metadata (vytváření popisu - dokumentace k datům) • formáty souborů (náklady konverze audiovizuálních dat atp.) • plánování, rozdělení rolí a odpovědnosti (spolupráce více institucí atp.) • operacionalizace (plánování a implementace datového managementu) viz též UKDA/JISC Costing Tool: http://www.data-archive.ac.uk/media/257647/ukda_jiscdmcosting.pdf
Cíle managementu dat • integrita dat, kvalita dat - přesnost a správnost výzkumu • srozumitelnost pro všechny potenciální uživatele • efektivita výzkumné práce - čas a náklady • autenticita dat - možnost replikace, opravy analýz • zajištění legálních a formálních předpokladů výzkumu • zabezpečení a zachování dat • zpřístupnění dat
Pojmenování datových souborů • systematicky, krátké názvy odkazující na obsah a/nebo vznik • rozlišení sérií, verzí a edicí (viz dále) • konzistentní formát • nezávislost jména na lokaci a software • nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... • scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) • když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: • Ant Renamer (http://www.antp.be/software/renamer) • RenameIT (http://sourceforge.net/prpjects/renameit) • Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)
Struktura datového souboru • flat file - obdélníkový datový soubor, datová matice • hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) • relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)
Who answers what in the CAPI questionnaire? mergeid- unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier,“rr” = respondent identifier within each household hhididentifies the household to which a person belonged when entering the panel hhidWidentifies the household, where “W” refers to the specific wave
Proměnné • variable names, varible labels • řazení a označení dotváří strukturu souboru • vzájemné vztahy mezi proměnnými • návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) • pomocné proměnné pro organizaci a správu souboru • variable names = volací znaky v software (nezačínat číslem, 8 míst...)=> převoditelnost formátu dat • přehlednost prezentace dat • systémy značení • číselný kód (V001, V002...) • kód odkazující na výzkumný nástroj (Q1a, Q1b... • mnemotechnická jména (BIRTH, EDUC...) • variable labels • srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika • formát proměnné (typ proměnné, počet znaků) • možnosti analýzy, velikost souboru
Hodnoty proměnných • naměřené hodnoty / odpovědi / audio / video / vzorky ... • numerické kódování - ve všech stat. softwarech => převoditelnost • někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) • příklad ISCO (Harry Ganzeboom) • kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech • standardizace • dokumentace, značení (value labels) • kódování - samostatný proces u složitějších úloh
Doporučení ke kódování • Identifikační proměnné na začátku záznamů - jednoznačnost • Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované • Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde • Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům • Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci • Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů • Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu • Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. • Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma • Přebírání kódovacích struktur z jiných šetření - standardizace
Chybějící hodnoty • Žádná odpověď (No Answer, NA) • Odmítnutí (Refusal) • Neví (Do not Know, DK) • Chyba zpracování (Processing Error) • Nehodí se (Not Applicable/Inapplicable, NAP, INAP) • Chybí přiřazená hodnota (No Match) • Chybí údaj • jednotný systém kódování
Zajištění integrity • vkládání dat - programování software (data-entry, CATI/CAPI) • vývoj technologií a změny koncepce designu • doporučení • nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy • méně kroků - redukce možností vzniku chyb • specializovaný software umožňuje nastavit platné hodnoty a filtry • dvojí vkládání a srovnání výsledků. • provést kontrolu úplnosti záznamů. • provést logickou kontrolu a kontrolu konzistence dat, např.: • kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný), • kontrola nejnižších a nejvyšších hodnot a extrémů, • kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk), • srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.). • řadu kontrol lze provádět automaticky za pomoci počítače • určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou • změny by měly být dokumentovány a původní data obnovitelná
Anonymizace • ochrana osobních údajů • odstranění přímých identifikací - anonymní kódy • malé skupiny, nepřímé identifikace • odstranění • agregace údajů, redukce podrobnosti • geografické a časové informace • ošetření extrémních hodnot
Vážení • Jsou v souboru váhy? Mám je použít? • typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) • jaký je výsledek s váhou a bez váhy? • Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru • Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin • Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace • Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) • Kombinované, celkové váhy
Dokumentace • metadata • porozumění - interpretace • výzkumný tým • ostatní výzkumníci • pravidla, standardy • ESOMAR, WAPOR/AAPOR... • elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu • formát dokumentace • výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze • mezinárodní standard DDI - standardizovaná struktura, XML formát • tři základní úrovně • projekt • databáze • proměnné a případy
Informace o projektu • původ datového souboru • název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) • institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) • abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty • popis a metody sběru dat • popis všech zdrojů, z nichž jsou data získána • časové vymezení sběru dat • časové a geografické pokrytí • cílová populace • jednotky pozorování • popis výběrového designu včetně opory • metody sběru dat • původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) • použitá klasifikační schémata a koncepty • návratnost a další vyhodnocení (např. známé odchylky od populace) • identifikace změn metodiky u časových sérií a longitudiálních výzkumů
Informace o databázi • popis datových souborů • specifikace verze a edice souboru (pokud jich je víc) • struktura souborů • specifikace vztahů a propojení • informace o rozsahu (počet záznamů a proměnných) • informace o formátech a kompatibilitě. • editace a modifikace dat • metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) • anonymizace • transformace a konstrukce odvozených proměnných • vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)
...informace o databázi • přístup k datům • vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů • katalogizační a citační informace • bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje • odkazy na související materiály a zdroje, pokud je to relevantní
Informace o proměnných a případech • informace o proměnných v souboru • jména proměnných • označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných • k dispozici by mělo být přesné původní znění otázky • frekvence, základní třídění apod. (?) • informace o případech v souboru • specifikace případů, pokud je to relevantní
Verze a edice databáze • správa dat, analýzy => více verzí a edicí => strategie jejich správy • jednoznačná identifikace verzí a edicí, přehled o rozdílech • zajištění autenticity (zabránit neautorizovaným zásahům) • doporučení • stanovit podmínky používání dat a seznámit s nimi uživatele • rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců • zavést jednoznačné a systematické značení verzí a edicí datového souboru • vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích • dokumentovat provedené změny • zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) • stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět • pokud je více kopií stejné verze, kontrolovat jejich shodnost
Zálohování, formáty a média • proces - pravidelné zálohování a obnova • digitální média z principu nespolehlivá • software, instituce atd. procházejí změnami + další rizika • kratší čas - operabilita • formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por) • diakritika => kódování znaků (UTF 8) • delší čas • jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace • PDF/A (archivační verze PDF definovaná ISO) • média • nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození • nejméně dvě různé formy archivace • pravidelné přehrávání na nová média