330 likes | 575 Views
Töötamine erinevate andmeallikatega. Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013. Kuidas ühendada andmestikke?. Andmestikud võivad olla: Register, st kõikne andmekogu Uuring, st valimipõhine andmekogu. Eeldame , et valimi disain on teada.
E N D
Töötamine erinevate andmeallikatega Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013
Kuidas ühendada andmestikke? Andmestikud võivad olla: • Register, st kõikne andmekogu • Uuring, st valimipõhine andmekogu. Eeldame, et valimi disain on teada. Ühendamiseks vajalikud eeldused: • Kirjed on identifitseeritavad • Andmestikkudel on ühine üldkogum. Ülesanne on lahendatav ka siis, kui ühe andmestiku üldkogum sisaldub teise üldkogumis.
Ülesande tüübid • Register + registerregister • Register + valim valim • Register + valim register • Valim + valim valim Küsimused: Millal on need ülesanded lahenduvad? Missugused on nende ülesannete lahendamisega seotud põhimõttelised ja tehnoloogilised raskused?
Register + register register • Eeldused • kõik objektid on identifitseeritud • üldkogum on sama (vrdl üldkogumi objektide definitsioone). Eestis on isikuregistrite puhul enamasti 1. eeldus täidetud (isikukoodid). Teine tingimus vajab kontrollimist. • Näide: RR ja REL rahvastik. • Väike erisus II eelduse osas: püsielaniku definitsioon – REL puhul viitaeg
Selgitus • Enamasti leidub objekte, mis (kes) on olemas ühes, aga puuduvad teises registris (ja vastupidi). • Kui neid ei ole palju, ei põhjusta see suuri ebatäpsusi andmestiku edasisel kasutamisel. • Saadud uuest registrist on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest algsest registrist. Tulemus on põhimõtteliselt täpne.
Register + valim valim • Eeldused • kõik objektid on identifitseeritud • üldkogum on sama või valimi üldkogum sisaldub registri üldkogumis ja on registri tunnuste abil defineeritav. • Väga sageli rakendatav. • Põhimõttelisi probleeme ei ole, kui eeldused on täidetud.
Selgitus • Registritunnuste väärtused lisatakse identifikaatori abil. • Registrist lisatud tunnused vastavad põhimõtteliselt valimi disainile. • Registritunnustega täiendatud valimist võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb valimist, osa – registrist. Tulemus on põhimõtteliselt korrektne, täpsus on disaini põhjal hinnatav.
Register + valim register • Registri täiendamine valimuuringu abil? • Üldjuhul põhimõtteliselt võimatu. • On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist. • Seda kasutatakse praktikas, lubatud protseduur ka rahvaloenduse korral. • On võimalik simuleerida valimi tasemel mõõdetud tunnuse väärtused ülejäänud registriobjektidele nii, et jaotusparameetrid vastavad valimi omadele. • Seda kasutatakse uuringutes. • Simuleeritud väärtused võivad tegelikest oluliselt erineda, seetõttu ei sobi need registrisse.
Seletus • Kuna valimis on üldjuhul objekte palju vähem kui registris, jääb suur osa registriobjekte ilma valimi põhjal lisatavast väärtusest. • Üks võimalus on leida igale registriobjektile võimalikult sarnane valimi objekt ja omistada registriobjektidele puuduvad väärtused sarnasuse põhjal. • Teine võimalus on vältimaks ühesuguseid väärtusi lisada neile juhuslik müra, mis aga täpsust vähendab.
Mida siiski on võimalik saada? • On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist. • See ülesanne on sisuliselt samaväärne eelmise ülesandega – registriandmed lisatakse valimiandmetele ja moodustatakse tabel, arvestades valimi disaini. • Seda kasutati ka REL andmete puhul (töötundide arv nädalas).
Valim + valim valim • Erinevad ülesanded sõltuvalt sellest, kas valimitel on ühisosa või mitte. • Kuigi kõik valimiobjektid on identifitseeritud ja valimitel on ühine üldkogum, kui • valimitel ei ole ühisosa, • on see ülesanne põhimõtteliselt mittelahenduv. Puudub teave erinevates valimites mõõdetud tunnuste omavaheliste seoste kohta.
Sõltumatute tunnuserühmade erijuht • Mõnikord on alust eeldada, et kahe valimi tunnused on sõltumatud, st et seosekordajate maatriksis oleksid kõik punased kordajad nullid (statistiliselt mitteolulised). • Sel juhul on võimalik ühisjaotuse jaoks kasutada eeskirja P12 = P1xP2, kus P1 tähistab esimese valimi ja P2 teise valimi tõenäosusjaotusi.
Seletus Kasutades sõltumatuse eeldust on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest valimist. Tulemuse täpsus on disaini põhjal hinnatav juhul kui sõltumatuse eeldus paika peab, kui mitte, siis põhjustab see täiendava vea. Näide: kui suurt ebatäpsust põhjustab oletus, et Eesti rahvastikus on sugu ja vanus sõltumatud tunnused.
Näide: naiste vanusejaotus: tegelik ning arvutatud soo ja vanuse järgi sõltuvust arvestamata
Seletus • Oletame, et kahe valimi korral on eelnevast teada, et ühe valimi teatavate väärtuste puhul on eelistatud teise valimi teatavad konkreetsed väärtused (tähistagu neid skeemil tumedamad sinised ja tumedamad punased väärtused). • Ühendatud valimi (mida saab kasutada üksnes tabelite moodustamiseks) jaotus peaks seda siis ka vastavalt kajastama. • Üldjuhul pole ühisjaotuse genereerimine sel juhul lihtne, selleks puudub üldsobiv metoodika ja tehnoloogia.
Kahel valimil on ühiseid objekte ja/või ühiseid tunnuseid Põhimõtteliselt on siin kolm erinevat ülesannet: Samadele objektidele täiendavate tunnuste lisamine; Samade tunnuste mõõtmine uutel objektidel; Uues valimis on niihästi uusi objekte kui ka uusi tunnuseid.
1.Esimene ülesande tüüp on tavaline paneeluuringutes. • Enamasti on probleemiks objektide arvu kahanemine, mis tähendab, et muuta tuleb laiendustegureid. 2. Teine tüüp on lahendatav laiendustegurite ühitamise teel.
Kolmas tüüp • Sobiv on laiendustegurite arvutamiseks kasutada valimite ühiseid tunnuseid. • Mida suurem on ühiste tunnuste osa, seda väiksem on määramatus tunnustevaheliste seoste osas. • Kuid teadaolevad seosed (alljärgnevas maatriksis mustad arvud) ei määra üheselt mitteteadaolevaid (punaseid) seoseid. • Seega sellise ülesande lahendamisel jääb paratamatult tulemustesse teatav ebatäpsus.
Sõltuvuste genereerimine? • Teoreetiline uurimistöö – võimalik teatavate jaotuse tüüpide korral (nt normaaljaotus, selle üldistused jne). • Praktiliselt teostatav pigem lähendusmeetodite abil (nt lineaarne planeerimine – sihifunktsiooniks on eeldatav ühisjaotuse seosemaatriks).