150 likes | 278 Views
Dátové vzorky pre experimentovanie. Michal Tvarožek. tvarozek { at } f iit.stuba.sk , D20 8. Prehľad prezentácie. Reálne dáta z troch domén Fotografie Publikácie Projekty O každej si povieme Veľkosť, pôvod Čo je v nej Kde ju nájsť. Dátová vzorka: publikácie.
E N D
Dátové vzorky pre experimentovanie Michal Tvarožek tvarozek { at } fiit.stuba.sk, D208
Prehľad prezentácie Dátové vzorky pre experimentovanie • Reálne dáta z troch domén • Fotografie • Publikácie • Projekty • O každej si povieme • Veľkosť, pôvod • Čo je v nej • Kde ju nájsť
Dátová vzorka: publikácie Dátové vzorky pre experimentovanie • Informácie (metadáta) o publikáciách získané automaticky z webu pomocou wrapperov • ACM Digital Library • Digital Bibliography & Library Project • SpringerLink • Pozor:Máme metadáta, nie samotné články (obsah)
Spôsob reprezentácie Dátové vzorky pre experimentovanie • Doménová ontológia publikácií (OWL) • http://mapekus.fiit.stuba.sk/?page=ontologies • Importuje subontológie • Region – definuje geografické regióny • Party – opisuje „strany“ vo vzťahoch (osoby, spoločnosti) • Cluster – definuje (hierarchické) zhluky
Hlavné triedy a ich atribúty Dátové vzorky pre experimentovanie • Publication (paper, report, thesis, ...) • Rok, strany, zborník, autori, editori, vydavateľ, kľúčové slová, index termy, zdroj... • Author • Organization (univerzity) • Event (conference, workshop, ...) • IndexTerm (ACM klasifikácia)
Hlavné vlastnosti Dátové vzorky pre experimentovanie • Nie všetky metadáta sú vždy dostupné (rôzne zdroje) • Nie príliš zložitá štruktúra (málo taxonómií) • Chyby/nekonzistencie/duplicity v dátach • Chyby u zdroja (napr. OCR pri ACM) • Chyby pri automatickom získaní dát • Veľkosť (počet publikácií) • ACM (~10k), DBLP (~100k), Springer (~1-10k)
Dátová vzorka: fotografie Dátové vzorky pre experimentovanie • Fotky a informácie o fotkách (dáta a metadáta) • Automaticky získané z EXIF metadát uložených kamerou • Manuálne doplnené podľa obsahu fotky • Zdroje fotiek • Fotky z konferencií a rôznych akcií • Fakultná fotogaléria (importér/prepojenie) • Ľubovoľné ďalšie fotky/obrázky, ktoré tam niekto vloží
Spôsob reprezentácie Dátové vzorky pre experimentovanie • Doménová ontológia fotografií (OWL) • http://mirai.fiit.stuba.sk/ontologies/photo.owl • Prístupná aj databáza s metadátami • Importuje subontológie • Region – definuje geografické regióny • Party – opisuje „strany“ vo vzťahoch (osoby, spoločnosti)
Hlavné triedy a ich atribúty Dátové vzorky pre experimentovanie • Photo • Dátum, veľkosť, orientácia, pomer strán, ... • Čo/kto je na obrázku, v akom je to prostredí, ... • EXIF metadáta • Ďalšie anotácie, ktoré priebežne doplníme [OP] • Prepojenie na ľudí a udalosti
Hlavné vlastnosti Dátové vzorky pre experimentovanie • Dali by sa doplniť ďalšie anotácie(ale musia to spraviť ľudia, čo ich poznajú) • Pomerne jednoduchá štruktúra • Veľkosť • Asi 8000 konferenčných fotiek od prof. Bielikovej • Potenciálne stovky až tisíce fotiek z FIIT galérie
Dátová vzorka: Projekty Dátové vzorky pre experimentovanie • Informácie o študentských projektoch (BP a DP) • Metadáta získané zo systému Yonban • Potenciálne získateľné aj samotné práce v el. podobe • Prístup k dátam • Priamo v databáze Postgress (na čítanie) • Predspracovaný export v podobe súboru
Spôsob reprezentácie Dátové vzorky pre experimentovanie • Doménová ontológia projektov (OWL) • Dostupná na vyžiadanie (dôvernosť dát) • Dostupná aj bez posudkov • Importuje subontológie • Publication – každý projekt je aj publikácia (výstupy) • Party – opisuje „strany“ vo vzťahoch (osoby, spoločnosti)
Hlavné triedy a ich atribúty Dátové vzorky pre experimentovanie • Project • Kľúčové slová • Review • Slovné aj hodnotenia v stupniciach • Publication (thesis) • Prepojenie na ľudí (študenti, školitelia, oponenti)
Hlavné vlastnosti Dátové vzorky pre experimentovanie • Nie celkom konzistentné dáta z hist. dôvodov • Zložitejšia štruktúra dát (projekty, posudky, ...) • Reálne dáta • Veľkosť • Niekoľko tisíc projektov a študentov • Zodpovedajúci počet posudkov a publikácií
Čo s tým možno robiť? Dátové vzorky pre experimentovanie • Vyhľadávať a prehliadať v reálnych dátach • Prepojenie vzoriek navzájom • Cez ľudí • Cez publikácie, resp. projekty • Sociálna sieť • Cez autorov (publikácie) • Cez ľudí na fotkách (fotky) • Cez študentov/školiteľov (projekty)