820 likes | 1.05k Views
PODATKOVNI ARHIVI in SEKUNDARNA ANALIZA PODATKOV Janez Štebe, ADP, Univerza v Ljubljani 2008, FF. Je Metodološki pristop, ki lahko kombinira več različnih metod, virov podatkov in analitičnih postopkov
E N D
PODATKOVNI ARHIVI in SEKUNDARNA ANALIZA PODATKOV Janez Štebe, ADP, Univerza v Ljubljani 2008, FF
Je Metodološki pristop, ki lahko kombinira več različnih metod, virov podatkov in analitičnih postopkov Poudarek je na izkoriščanju prednosti uporabe obstoječih podatkovnih virov – vsebuje fazo iskanja in vrednotenja obstoječih podatkovnih virov Ni Metoda, analitični postopek (anketna metoda, večnivojska analiza, etnološka raziskava, analiza besedil...) – lahko pa uporablja katerokoli od teh Ne vsebuje faze načrtovanja in zbiranja podatkov na novo – lahko pa se kombinira Sekundarna analiza, kaj je kaj ni?
Razloge za uporabo sekundarne analize lahko razdelimo v tri skupine (Hayman v Štebe, 1999): • Konceptualno-vsebinski razlogi (primerjava med različnimi časovnimi obdobji; že testirani vprašalniki; abstraktna konceptualizacija) • Metodološki razlogi (kombinacija več istovrstnih ali raznovrstnih virov podatkov; slabost – nepoznavanje podrobnosti zbranih podatkov- kakovost) • Ekonomski razlogi (prihranek denarja in časa) Glej ŠTEBE, Janez. Izkoriščanje zapuščine slovenske empirične sociologije za današnje namene v okviru sekundarne analize. V: Družboslovne spremembe na Slovenskem / vabljena urednica Katja Boh. Ljubljana : Univerza : Slovensko sociološko društvo (1999). - (Družboslovne razprave), ISSN 0352-3608 ; Letn. 15, št. 30/31). - str. 232-244. Dokument v RTF za ogledovanje.
Faze raziskave in posebnosti sekundarne analize • Izbor problema v SA • Konceptualizacija in SA • Enote in vzorci • Merjenje (zanesljivost, veljavnosti) • Analiza
Potrjevanje teorije, prikaz stanja Izhajam iz vnaprej definiranega raziskovalnega problema in iščem vsebinsko ter metodološko ustrezne spremenljivke, podatkovne vire za analizo izbranega problema Pri odločanju za SA tehtam stroške (razpoložljivost podatkov, čas, kakovost in ustreznost za dani problem v primerjavi z novim zbiranjem podatkov) Medčasovno, primerjalno raziskovanje in raziskovanje specialnih populacij,... Izbor problema v SA • Iskanje problema: • Podatkovno-centrično pregledovanje po vsebinah spremenljivk v razpoložljivih virih za iskanje raziskovalnih zamisli (preizkus I)
Konceptualizacija in SA – več pristopov • Pristop z uporabo operacionalnih definicij – iščemo dobesedno ekvivalentne ali vsaj ex-post harmonizirane spremenljivke tem v referenčni literaturi • Hyman (1972): Če ne najdemo dobesedno spremenljivk, poizkušamo razmišljati abstraktno – širše konceptualizacije • Neodvisnost konceputalizacije – isti pojav lahko nastopa v različnih konceptualizacijah, npr. udeležba na lokalnih volitvah – indikator povezanosti v skupnosti ali političnega delovanja
Merjenje (zanesljivost, veljavnosti) • Prihrani čas za zbiranje (vendar moramo upoštevati dodatni čas, ki ga porabimo za seznanjanje z datoteko in za dodatno pripravo podatkov in analize) • Najpomembnejše znane raziskave so narejene z upoštevanjem visokih standardov kvalitete, tudi pri uporabi uveljavljenih indikatorjev za merjenje konceptov • Zaradi velikega števila vsebinskih področij je vsakemu konceptu namenjeno samo omejeno število indikatorjev – manjša zanesljivost; toda, večinoma so izbrani s predhodnim testiranjem merskih karakteristik • Z uporabo večih virov bolje ocenimo pristranosti merjenja: Glej npr. Baumgartner in Steenkamp: Response Styles in Marketing Research: A Cross-National Investigation. Journal of marketing research, May 2001
Analiza • Medčasovne longitudinalne analize in primerjalne mednarodne datoteke, ki jih analiziramo s kompleksnimi analitičnimi pristopi (kohortna analiza, večnivojska analiza, upoštevanje kontekstualnih dejavnikov in merske kvalitete spremenljivk) • Širok nabor “neodvisnih spremenljivk” za multivaritno analizo vzročnosti
Enote in vzorci • Kombiniranje večih vzorcev med sabo za pripravo datotek za medčasovno, študij specialnih populacij in mednarodno primerjalno raziskovanje • Kombiniranje večih virov podatkov za večnivojsko analizo (npr. prostorski, statistični in anketni) • Sekundarna analiza ima največ prednosti ko gre za datoteke velikih velikosti iz anket • Možnost analize na specialnih podpopulacijah - npr. Iz General Household Survey (GHS) – letni vzorci nad 20.000 anket posameznikov - problemi ostarelih (strejši od 65 let) ali poročene ženske (nad 40 let)
Primer kompleksne priprave in analize podatkov • Ganzeboom, Harry B. G. , Anton Kramberger, Paul Nieuwbeerta(2000): The Parental Effect on Educational and Occupational Attainment in Slovenia During hte 20th Century. Družboslovone razprave, No. 32-33. http://dk.fdv.uni-lj.si/db/
SJM 1968 – 1998, štiri različne letne datoteke Slovenski podvzorci izbranih mednarodnih primerjalnih datotek ISJP, ISSP in TBS Združen vzorec več kot 10.000 respondentov ki so odgovarjali na vsa zastavljena vprašanja Ex post harmonizacija spremenljivk (doseganje izobrazbe rekodirano v leta iz originalov, 4 – grobe kategorije izobrazbe , 7 mednarodno predpisanih kategorij ali direktnega merjenja let šolanja) Upoštevani podatkovni viri
Analitični prijemi • Različne tradicije raziskovanja mobilnosti (analiza tabel in regresijski modeli) • Multivaratni regresijski modeli z upoštevanjem učinka kohorte za primerjavo različnih obdobij • Upoštevanje učinka razlik v strukturi (izobrazbeni in poklicni)
Poučevanje • ESDS guides http://www.esds.ac.uk/support/onlineguides.asp • UKDA Learning and teaching resources : http://www.data-archive.ac.uk/support/teaching.asp; • ESS Edunet http://www.europeansocialsurvey.org/index.php?option=com_content&task=view&id=72&Itemid=117 • ICPSR Courses & Learning Tools http://www.icpsr.umich.edu/ICPSR/training/index.html • Arhivski vodič http://www.sscnet.ucla.edu/issr/da/tutor/index.html
Ponovitev: pomagaš si z viri literature vezanimi na podatke Ponovitev (replikacija), preverjanje originalnih raziskovalnih rezultatov na istih podatkih, primerno za poučevanje (Preizkus II: literatura in podatki) • Arhiv materialov v povezavi z objavami http://www.icpsr.umich.edu/ICPSR/pra/index.html • (http://www.icpsr.umich.edu/citations/; View Titles in Publications-Related Archive; • UK SARS: http://www.ccsr.ac.uk/sars/publications/jointpub.html; • UK DA http://www.data-archive.ac.uk/Lucene/Search.aspx- Išči pod Publications; • ess: http://www.europeansocialsurvey.org/index.php?option=com_content&task=view&id=71&Itemid=115; • evs http://www.europeanvalues.nl/; • issp http://www.issp.org/public.shtml; • gss - http://http://www.norc.org/GSS+Website/ V POŠTEV PRIDEJO TUDI SPLOŠNE BIBLIOGRAFSKE ZBIRKE; PROBLEM, KAKO IDENTIFICIRATI TER DOSTOPATI DO PODATKOVNEGA VIRA?!
Glej tudi: • S podatki podprta učna gradiva (predstavitev): http://www.adp.fdv.uni-lj.si/podatki/predstavitev/sss2008.ppt • Primer študije primerov uporabe podatkov v arhivu: http://www.adp.fdv.uni-lj.si/blog/?p=13
Preizkus I Literatura in podatki: • Za dan članek identificiraj glavni podatkovni vir; V kolikor je članek dostopen v polnem besedilu, identificiraj uporabljeno spremenljivko; Navedi bibliografsko referenco za članek in podatkovni vir.
Arhiv družboslovnih podatkov (ADP): • je osrednji slovenski družboslovni arhiv podatkov, • pokriva vsa pomembnejša družboslovna področja www.adp.fdv.uni-lj.si Naloge Arhiva • Poizvedovanje in pridobivanje podatkov • Ravnanje s podatki • Posredovanje in razširjanje podatkov • Cilj: zagotoviti dostopne visoko kakovostne podatke za raziskovanje in izobraževanje, primerne za raziskovanje pojavov, ki bodo zanimivi za prihodnje generacije
Viri podatkov • Akademski raziskovalni projekti • Po naročilu vlade (npr. PB), iz virov Statističnega urada, • Tržne in javnomnenjske raziskave (Mediana, CATI, Gral – Iteo), • Iz tujih arhivov
Pomen zapuščine slovenske empirične sociologije • Pomembno za poznavanje lastnih raziskovalnih tradicij • Pretekli podatki za primerjave in analize družbenih sprememb • Podatki ponekod izgubljeni ali uničeni (MKS, Stratifikacija in mobilnost, vrednote mladih) Glej: ŠTEBE, Janez. Izkoriščanje zapuščine slovenske empirične sociologije za današnje namene v okviru sekundarne analize. V: Družboslovne spremembe na Slovenskem / vabljena urednica Katja Boh. Ljubljana : Univerza : Slovensko sociološko društvo (1999). - (Družboslovne razprave), ISSN 0352-3608 ; Letn. 15, št. 30/31). - str. 232-244. Dokument v RTF za ogledovanje.
Dostop do statističnih podatkovhttp://www.stat.si/ • Uradne statistike pogosto objavljajo le agregirane podatke • Problem dostopa do individualnih podatkov (popis, registri) • Povezovanje registrov med sabo, s prostorskimi podatki, harmonizacija spremenljivk... • Problem zaupnosti in spodbujanja stopenj sodelovanja • Anonimizirani podatki nekaterih raziskav na voljo v ADP (Preizkus II)
Preizkus II • Poišči na statističnem uradu predstavitev tabel iz zadnjega popisa prebivalstva • Poišči datoteko popisa prebivalstva na ADP • V čem se razlikujeta oba vira (naštej čim več razlik povezanih z možnostmi uporabe za različne namene)
http://www.data-archive.ac.uk/findingData/majorStudies.asp British Crime Survey British Election Studies British Household Panel Survey BSA GHS, LFS... Nekatere najbolj znane raziskave v UK DA ( http://www.esds.ac.uk/ )
Principi pri raziskavah namenjenih sekundarni analizi • Izpolnjevanje najvišjih metodoloških zahtev, standardizacija merjenja, izbor indikatorjev zanimivih za širše akademsko okolje in doslednost v ponavljanju skozi čas, takoj na voljo uporabnikom za sekundarno analizo kot infrastrukturni vir • Vzorčni primer nacionalne splošne družboslovne raziskave http://www.norc.uchicago.edu/projects/gensoc1.asp (GSS)
Kako do podatkov? Preko predstavitvene strani ADP na Internetu http://www.adp.fdv.uni-lj.si/
Splošni pogoji in omejitve uporabe • Podatki se izročijo samo za določen namen • Uporabnik se zavezuje skrbeti za takšno ravnanje s podatki, da je ohranjena tajnost podatkov • Seznanjena uporaba (upošteva metodološka in konceptualna izhodišča ter omejitve raziskave) • Citiranje podatkov po modelu navajanja literature
KAJ SO PODATKI ”podatkovna datoteka” - računalniško berljive podatkovne datoteke, ki vsebujejo številke – šifre Spremenljivke - Lastnosti opazovanih enot zbranih po določenem postopku
Spremenljivke PODATKI Enote
Metapodatki Metapodatke lahko definiramo kot “vse informacije potrebne za obveščanje in procesiranje statističnih struktur”. (Grossmannv Vipavc in Klep, 2003). Pri kakovostnem oblikovanju metapodatkovnih standardov imajo velik pomen uporabniki informacij. razvoj standardov (DDI) Mednarodna izmenjava opisov raziskav (zapis v XML) Možnost analize podatkov
Kaj hraniti: podatke, spremljajočo dokumentacijo, informacije o vzorčenju,... podatke, ki se lahko zgubijo. Spremljajoča dokumentacija naj vsebuje informacije kot izvor podatkov; kaj je bil osnovni namen zbiranja; kdo so bili avtorji in naročniki oz. sponzorji; kako so bili podatki zbrani; kakšni so pravni pogoji uporabe podatkov; opis spremenljivk; kako so bili podatki združeni – kodirna shema; v kakšnem formatu je hranjena računalniško berljiva podatkovna datoteka; na katerem mediju je hranjena.......
Standard na katerem temelji priprava vsebin za ADP je XML DDI DTD (The Data Documentation Initiative Codebook Document Type Definition). Po tem standardu je kodirna knjiga sestavljena iz: • Opis dokumenta (Document Description) • Opis raziskave(Study Description) - Naslov, avtor, izdelava in distribucija - Vsebina raziskave - Metodologija - Dostop do podatkov • Opis podatkov(Data Files Description) • Opis spremenljivk(Variable Description) • Ostali dokumenti (Other Documentation)
NESSTARje virtualna podatkovna knjižnica, ki omogoča iskanje, lociranje, pregledovanje in snemanje mnogo raznovrstnih statističnih in drugih podatkov in metapodatkov.
Za analizo podatkov potrebujemo uporabniško ime in geslo za NESSTAR. IZPOLNEM NAROČILNICO