1 / 33

Töötamine erinevate andmeallikatega

Töötamine erinevate andmeallikatega. Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013. Kuidas ühendada andmestikke?. Andmestikud võivad olla: Register, st kõikne andmekogu Uuring, st valimipõhine andmekogu. Eeldame , et valimi disain on teada.

Download Presentation

Töötamine erinevate andmeallikatega

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Töötamine erinevate andmeallikatega Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013

  2. Kuidas ühendada andmestikke? Andmestikud võivad olla: • Register, st kõikne andmekogu • Uuring, st valimipõhine andmekogu. Eeldame, et valimi disain on teada. Ühendamiseks vajalikud eeldused: • Kirjed on identifitseeritavad • Andmestikkudel on ühine üldkogum. Ülesanne on lahendatav ka siis, kui ühe andmestiku üldkogum sisaldub teise üldkogumis.

  3. Ülesande tüübid • Register + registerregister • Register + valim  valim • Register + valim  register • Valim + valim valim Küsimused: Millal on need ülesanded lahenduvad? Missugused on nende ülesannete lahendamisega seotud põhimõttelised ja tehnoloogilised raskused?

  4. Register + register register

  5. Register + register register • Eeldused • kõik objektid on identifitseeritud • üldkogum on sama (vrdl üldkogumi objektide definitsioone). Eestis on isikuregistrite puhul enamasti 1. eeldus täidetud (isikukoodid). Teine tingimus vajab kontrollimist. • Näide: RR ja REL rahvastik. • Väike erisus II eelduse osas: püsielaniku definitsioon – REL puhul viitaeg

  6. Kahe registri ühendamine

  7. Selgitus • Enamasti leidub objekte, mis (kes) on olemas ühes, aga puuduvad teises registris (ja vastupidi). • Kui neid ei ole palju, ei põhjusta see suuri ebatäpsusi andmestiku edasisel kasutamisel. • Saadud uuest registrist on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest algsest registrist. Tulemus on põhimõtteliselt täpne.

  8. Register + valim  valim

  9. Register + valim  valim • Eeldused • kõik objektid on identifitseeritud • üldkogum on sama või valimi üldkogum sisaldub registri üldkogumis ja on registri tunnuste abil defineeritav. • Väga sageli rakendatav. • Põhimõttelisi probleeme ei ole, kui eeldused on täidetud.

  10. Registri andmete lisamine valimile

  11. Selgitus • Registritunnuste väärtused lisatakse identifikaatori abil. • Registrist lisatud tunnused vastavad põhimõtteliselt valimi disainile. • Registritunnustega täiendatud valimist võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb valimist, osa – registrist. Tulemus on põhimõtteliselt korrektne, täpsus on disaini põhjal hinnatav.

  12. Register + valim  register

  13. Register + valim  register • Registri täiendamine valimuuringu abil? • Üldjuhul põhimõtteliselt võimatu. • On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist. • Seda kasutatakse praktikas, lubatud protseduur ka rahvaloenduse korral. • On võimalik simuleerida valimi tasemel mõõdetud tunnuse väärtused ülejäänud registriobjektidele nii, et jaotusparameetrid vastavad valimi omadele. • Seda kasutatakse uuringutes. • Simuleeritud väärtused võivad tegelikest oluliselt erineda, seetõttu ei sobi need registrisse.

  14. Registri täiendamine valimi abil

  15. Seletus • Kuna valimis on üldjuhul objekte palju vähem kui registris, jääb suur osa registriobjekte ilma valimi põhjal lisatavast väärtusest. • Üks võimalus on leida igale registriobjektile võimalikult sarnane valimi objekt ja omistada registriobjektidele puuduvad väärtused sarnasuse põhjal. • Teine võimalus on vältimaks ühesuguseid väärtusi lisada neile juhuslik müra, mis aga täpsust vähendab.

  16. Mida siiski on võimalik saada? • On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist. • See ülesanne on sisuliselt samaväärne eelmise ülesandega – registriandmed lisatakse valimiandmetele ja moodustatakse tabel, arvestades valimi disaini. • Seda kasutati ka REL andmete puhul (töötundide arv nädalas).

  17. Valim + valimvalimÜhisosata valimite juhtum

  18. Valim + valim valim • Erinevad ülesanded sõltuvalt sellest, kas valimitel on ühisosa või mitte. • Kuigi kõik valimiobjektid on identifitseeritud ja valimitel on ühine üldkogum, kui • valimitel ei ole ühisosa, • on see ülesanne põhimõtteliselt mittelahenduv. Puudub teave erinevates valimites mõõdetud tunnuste omavaheliste seoste kohta.

  19. Kaks ühisosata valimit

  20. Korrelatsioonimaatriks

  21. Sõltumatute tunnuserühmade erijuht • Mõnikord on alust eeldada, et kahe valimi tunnused on sõltumatud, st et seosekordajate maatriksis oleksid kõik punased kordajad nullid (statistiliselt mitteolulised). • Sel juhul on võimalik ühisjaotuse jaoks kasutada eeskirja P12 = P1xP2, kus P1 tähistab esimese valimi ja P2 teise valimi tõenäosusjaotusi.

  22. Kahe sõltumatute tunnustega valimi ühendamine

  23. Seletus Kasutades sõltumatuse eeldust on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest valimist. Tulemuse täpsus on disaini põhjal hinnatav juhul kui sõltumatuse eeldus paika peab, kui mitte, siis põhjustab see täiendava vea. Näide: kui suurt ebatäpsust põhjustab oletus, et Eesti rahvastikus on sugu ja vanus sõltumatud tunnused.

  24. Näide: naiste vanusejaotus: tegelik ning arvutatud soo ja vanuse järgi sõltuvust arvestamata

  25. Kahe sõltuvate tunnustega valimi ühendamine

  26. Seletus • Oletame, et kahe valimi korral on eelnevast teada, et ühe valimi teatavate väärtuste puhul on eelistatud teise valimi teatavad konkreetsed väärtused (tähistagu neid skeemil tumedamad sinised ja tumedamad punased väärtused). • Ühendatud valimi (mida saab kasutada üksnes tabelite moodustamiseks) jaotus peaks seda siis ka vastavalt kajastama. • Üldjuhul pole ühisjaotuse genereerimine sel juhul lihtne, selleks puudub üldsobiv metoodika ja tehnoloogia.

  27. Valim + valim valimÜhisosaga valimite juhtum

  28. Kahel valimil on ühiseid objekte ja/või ühiseid tunnuseid Põhimõtteliselt on siin kolm erinevat ülesannet: Samadele objektidele täiendavate tunnuste lisamine; Samade tunnuste mõõtmine uutel objektidel; Uues valimis on niihästi uusi objekte kui ka uusi tunnuseid.

  29. tüüp 1 tüüp 2 tüüp 3

  30. 1.Esimene ülesande tüüp on tavaline paneeluuringutes. • Enamasti on probleemiks objektide arvu kahanemine, mis tähendab, et muuta tuleb laiendustegureid. 2. Teine tüüp on lahendatav laiendustegurite ühitamise teel.

  31. Kolmas tüüp • Sobiv on laiendustegurite arvutamiseks kasutada valimite ühiseid tunnuseid. • Mida suurem on ühiste tunnuste osa, seda väiksem on määramatus tunnustevaheliste seoste osas. • Kuid teadaolevad seosed (alljärgnevas maatriksis mustad arvud) ei määra üheselt mitteteadaolevaid (punaseid) seoseid. • Seega sellise ülesande lahendamisel jääb paratamatult tulemustesse teatav ebatäpsus.

  32. Seosekordajate maatriks

  33. Sõltuvuste genereerimine? • Teoreetiline uurimistöö – võimalik teatavate jaotuse tüüpide korral (nt normaaljaotus, selle üldistused jne). • Praktiliselt teostatav pigem lähendusmeetodite abil (nt lineaarne planeerimine – sihifunktsiooniks on eeldatav ühisjaotuse seosemaatriks).

More Related